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数据 挖掘 技术 在 科学 研究 和 日 常生 活 中 具有 广泛 的 应 用 ,被 列 为 21 世纪 最 具 洪 力 的 应 
用 技术 之 一 。 现 在 数据 挖掘 技术 已 经 成 为 信息 系统 、 应 用 数学 等 专业 学 生 的 必修 教学 内 容 。 

为 此 ,本 书 在 编写 时 力求 突出 以 下 特色 : 

(1) 引入 数 据 挖掘 研究 的 热点 问题 以 及 最 新 研究 成 果 , 保 证 教材 的 先进 性 。 

(2) 强化 目标 驱动 观点 ,使 读者 学 习 有 的 放 矢 。 

(3) 每 章 后 面 都 详细 讲解 了 在 SQL Server 2005 或 Weka 环境 下 相关 理论 的 具体 实现 
技术 ,使 得 读者 可 以 理论 联系 实际 ,培养 解决 实际 问题 的 能 力 。 

(4) 在 文字 表达 方面 争取 语言 更 通俗 . 易 懂 、 易 读 。 

本 书 具体 内 容 如 下 : 

实例 1 一 实例 10 ,详细 介绍 了 基于 联机 分 析 处 理 技术 .关联 规则 方法 .决策 树 方法 、 贝 叶 
斯 方法 人工 神经 网 络 方法 、. 聚 类 分 析 方法 、 线 性 回归 方法 等 方法 的 10 个 工程 实例 的 具体 

附录 A 和 附录 B, 分 别 介 绍 了 SQL Server 2005 和 Weka 软件 的 任务 描述 和 实现 方法 。 

本 书 的 案例 来 源 于 不 同 的 专业 领域 和 最 新 的 工程 实践 ,新颖 独特 ,具有 代表 性 和 很 强 的 
实际 借鉴 价值 。 读 者 通过 学 习 , 可 以 了 解 和 掌握 数据 挖掘 技术 的 理论 和 算法 ,熟悉 在 各 个 领 
域 应 用 的 流程 和 分 析 方 法 ,从 而 为 以 后 的 数据 分 析 工 作 夯 实 基础 。 

为 了 能 更 好 地 将 工程 实例 与 相关 理论 知识 相 结合 ,将 基本 概念 与 具体 的 方法 .工具 相 结 
合 ,达到 学 以 致 用 的 效果 ,读者 可 参考 笔者 所 编著 的 4 数据 仓库 与 数据 挖掘 技术 》 进 行 学 习 。 

本 书 由 张 兴 会 统 稿 , 王 明 春 、 郑 晓 艳 、 刘 玲 、 刘 新 钰 参加 了 本 书 的 编写 、 图 表 绘 制 , 模 型 构 
建 、 软 件 调试 等 工作 。 在 本 书 编写 过 程 中 , 安 淑 芝 教 授 提出 了 宝贵 的 修改 意见 。 男 外 ,本 书 
还 参阅 和 引用 了 许多 专家 和 学 者 的 文献 资料 ,在 此 表示 衷心 的 感谢 。 

由 于 笔者 水 平和 能 力 有 限 ,新 技术 的 发 展 和 更 新 较 快 , 书 中 难免 有 不 妥 之 处 ,欢迎 读者 
批评 指正 。 笔 者 邮箱 为 xhzhang@tute. edu. cn。 
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实例 1 基于 联机 分 析 处 理 技术 的 税务 审计 分 析 


1.1 任务 描述 


需要 对 某 市 国税 局 的 延期 纳税 审批 情况 进行 审计 ,资料 来 源 于 某 市 国税 局 延期 纳税 数 
据 库 ,此 数据 库 中 共有 三 个 数据 表 。 

(1) 延期 纳税 批件 表 : 在 此 表 中 共有 1568 条 记录 ,记录 着 税务 局 批准 企业 纳税 的 基本 
信息 ,例如 征收 项 目 种 类 、 税 款 所 属 期 .税额 .纳税 人 名 称 等 。 

(2) 税务 机 关 代码 表 : 记录 该 市 所 属 各 区 县 的 税务 机 关 代码 及 名 称 。 

(3) 征收 项 目 代码 表 : 记录 各 征收 项 目 税种 的 代码 及 名 称 。 

在 审计 时 ,面临 诸多 的 困难 ,如 时 间 跨 度 大 (从 2002 年 1 月 至 2004 年 2 月 )、 所 属 区 县 
多 .审批 金额 大 等 。 对 税务 局 审批 延期 纳税 的 合法 合 规 性 分 析 离 不 开 对 纳税 企业 的 延伸 。 
如 何在 这 些 浩如烟海 的 电子 资料 中 找到 需要 的 信息 是 这 次 审计 的 核心 问题 。 

本 例 将 通过 分 析 数 据 库 中 国税 局 给 企业 批准 延期 纳税 的 大 量 数据 ,简要 介绍 审计 过 程 
中 如 何 应 用 多 维 数据 分 析 工 具 在 统 揽 全 局 .把 握 总 体 的 基础 上 对 大 量 的 电子 数据 进行 筛选 、 
分 析 , 快 速 找 出 审计 重点 ,准确 定位 延伸 分 析 的 对 象 。 通 过 对 菜市 国税 局 的 深入 了 解 ,在 审 
计时 需要 掌握 以 下 情况 : 2002—2004 年 全 市 共 审核 批准 了 多 少 延期 纳税 税 款 ? 哪 年 审批 的 
金额 比较 大 ? 审计 的 都 有 什么 税种 ?各 税种 占 的 比例 有 多 大 ? 各 个 区 县 分 别 审批 了 多 少 税 
ak? 哪个 区 县 审批 的 金额 较 多 ? 审批 时 间 集 中 在 什么 时 候 ? 审计 人 员 应 从 哪里 进行 突破 ? 

在 这 个 案例 中 ,通过 建立 多 维 数据 集 ,在 把 握 总 体 、 统 挠 全 局 的 基础 上 观察 趋势 ,选择 重 
点 ;最 后 进行 有 针对 性 的 延伸 取证 ,顺利 完成 了 整个 审计 过 程 。 


1.2 技术 原理 


1.2.1 联机 分 析 处 理 的 定义 


联机 分 析 处 理 委员 会 对 联机 分 析 处 理 (OLAP) 的 定义 为 : 使 分 析 、 管 理 或 执行 人 员 能 
够 从 多 种 角度 对 从 原始 数据 中 转化 出 来 .能 够 真正 为 用 户 所 理解 .并 真实 反映 企业 维特 性 的 
信息 进行 快速 一致. 交互 地 存 取 ,从 而 获得 对 数据 更 深入 了 解 的 一 类 软件 技术 。 

OLAP 的 基本 多 维 分 析 操 作 有 钻 取 (Dril-up 和 Drill-down) ,切片 (Slice) 和 切 块 (Dice) 
以 及 旋转 (Pivot) 等 。 


1.2.2 联机 分 析 处 理 的 一 些 具 体操 作 


1. 钻 取 

钻 取 是 改变 维 的 层次 ,变换 分 析 的 粒度 。 它 包括 向 下 钻 取 (Dril-down) 和 向 上 钻 取 
(CDril-up)。 向 上 钻 取 也 称 为 上 卷 (Rol-up) ,是 在 某 一 维 上 将 低层 次 的 细节 数据 概括 到 高 层 
次 的 汇总 数据 ,或 减少 维 数 ;而 Drill-down 则 相反 , 它 从 汇总 数据 深入 到 细节 数据 进行 观察 


或 增加 新 维 。 例 如 ,图 1-1 所 示 的 数据 立方 体 经 过 沿 着 分 行 维 的 概念 层次 上 卷 , 由 分 行 上 升 
到 城市 ,得 到 如 图 1-2 所 示 的 立方 体 ;图 1-1 中 的 数据 立方 体 经 过 沿 时 间 维 下 钻 , 由 年 度 下 
降 到 季度 ,得 到 如 图 1-3 所 示 的 数据 立方 体 。 


营业 收入 
分 行 2 / 1943 
分 行 1 
2008 年 | 2330 | 2954 3412 


2007 年 


2006 年 


2005 年 


支行 ! 支行 支行 3 支行 4 
图 1-1 数据 立方 体 示例 


支行 ! ”支行 ”支行 3 支行 4 
图 1-2 向 上 钻 取 后 得 到 的 数据 立方 体 


分 行 1 


第 1 季度 


第 2 季度 


第 3 季度 | 650 


第 4 季度 | 530 


xfi ”支行 2 KS kfm 
图 1-3 向 下 钻 取 后 得 到 的 数据 立方 体 


2. 切片 和 切 块 
切片 : 在 给 定数 据 立 方 体 的 一 个 维 上 进行 选择 操作 就 是 切片 ,切片 的 结果 是 得 到 一 个 
二 维 平面 数据 。 例 如 ,对 图 1-1 中 数据 立方 体 , 使 用 条 件 : 


“银行 分 行 =“ 分 行 1” 
进行 选择 ,就 相当 于 在 原来 的 立方 体 中 切 出 一 片 ,结果 如 图 1-4 所 示 。 


切 块 : 在 给 定数 据 立方 体 的 两 个 或 多 个 维 上 进行 选择 操作 就 是 切 块 , 切 块 的 结果 得 到 
一 个 子 立方 体 。 例 如 ,对 图 1-1 所 示 数 据 立 方 体 ,使 用 条 件 : 

(银行 分 行 =“ 分 行 1”or“ 分 行 2”) 

And (时 间 =“2007 4E" or" 2008 4E") 

And (银行 支行 =“ 支 行 1”or“ 支 行 2”) 


进行 选择 ,就 相当 于 在 原 立 方 体 中 切 出 一 小 块 , 结 果 如 图 1-5 所 示 。 


2008 年 2330 2954 3412 3956 
2007 年 2544 3011 3553 4211 
2006 年 2138 2652 3079 4305 
2005 年 1842 2241 3142 3392 
xti ”支行 xti xt 支行 1 ”支行 2 
图 1-4 切片 示例 图 1-5 切 块 示例 
3. 旋转 


旋转 是 变换 维 的 方向 , 即 在 表格 中 重新 安排 维 的 放置 (如 行列 互 换 )。 图 1-6 所 示 是 
图 1-1 中 立方 体 通过 旋转 横 纵 坐标 所 得 的 立方 体 。 


分 行 1 2330 
分 行 2 


支行 1 1943 


支行 2 


支行 3 


支行 4 


20084 20074Æ 2006 2005 年 
图 1-6 旋转 后 得 到 的 数据 立方 体 


1.3.1 建立 数据 库 
建立 数据 库 的 步骤 如 下 : 


COD 依次 执行 “开始 ”一 “程序 ”> Microsoft SQL Server 2005 — SQL Server 
Management Studio 命令 ,如 图 1-7 所 示 ,打开 SQL Server 2005 数据 库 管理 器 。 
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Windows XP Professional 


图 1-7 打开 数据 库 管理 器 


(2) 在 弹出 "连接 服务 器 "对话 框 中 选择 安装 SQL Server 2005 时 所 建立 的 命名 实例 名 ， 
在 身份 验证 中 选择 Windows 身份 验证 ”项 , 单 击 “连接 ?按钮 ,如 图 1-8 所 示 。 


和 连接 到 服务 器 


SQL Server2005 


LEE 数据 库 引 擎 


服务 器 名 称 @) : pooCASABA0SAAGA\ IATANING 


身份 验证 QD Windows 身份 验证 


选项 @) >> 


图 1-8 连接 服务 器 
(3). 进入 “对 象 资源 管理 器 "界面 后 ,在 左 侧 树 形 结构 中 找到 “数据 库 ” 文 件 夹 , 右 击 , 在 
弹出 的 快捷 菜单 中 选择 “新 建 数据 库 ” 命 令 , 如 图 1-9 所 示 。 


(4) 在 弹出 的 “新 建 数据 库 ” 对 话 框 的 “数据 库 名 称 ” 文 本 框 中 填写 “延期 纳税 ”, 单 击 
“确定 ”按钮 ,如 图 1-10 所 示 。 


。 4 。 


K.NWicrosoft SQL Server Nanagement Studio 
文件 下 ) SED NIV IAV SOW #EO 帮助 中 
Jjammg"Q D mb Gda ROBES 
Error] PEE a£ 
asor sa aT aas imojan 
B [jj Fe9CA5A6405A46A\VDATANING (SQL Server 9. C 

piee 

AE aero 0 数据 库 

sa \DATAMTNG\ SUBE 

sr Mina) 
还 原 数据 库 QU 


sa 


DA ERLE R 
= 刷新 于) 


图 1-9 进入 对 象 资源 管理 器 


E Gre 
司 GE - 8b 
HER TS D: 
所 有 者 四 ) 
口 借用 全 文案 引 QD 


数据 库 文件 EE) 
RES 文件 类 型 文件 组 初始 大 小 (MB] “自动 增长 路 径 
延期 纳税 数据 PRIMARY WEH 1 m, TIRA [_..] C:\Progran Files\Micrd 


延期 纳税 _ log 日 志 不 适用 [u] C Vrogran Files\Micrd 


服务 器 
FOSCASABADSA4BANDATAMING 


连接 
了 99CASAB405A4BAVAdninistrator 


3) 查看 连接 属性 


1-10 新 建 数据 库 


(5) 回 到 “对 象 资源 管理 器 "界面 ,在 左 侧 树 形 结构 中 找到 新 建立 的 数据 库 “ 延 期 纳税 ” 
项 , 右 击 “延期 纳税 "数据库 ,在 弹出 的 快捷 菜单 中 选择 “任务 ”>“ 导 入 数据 ”命令 ,如 图 1-11 


所 示 。 
(6) 打开 “SQL Server 导入 和 导出 向 导 ” 对 话 框 ,如 图 1-12 所 示 。 
CD 单 击 “ 下 一 步 ”按钮 。 在 “数据 源 ” 下 拉 列 表 中 选择 Microsoft Access 项 ,如 图 1-13 


所 示 。 


K.Nicrosoft SQL Server Nanagement Studio 
xt REO WE, IRA SD SEC EHW 
过 新 查询 WD D DDD GdJ Dah»Rib. 
EE cir] E 
mo- $9: 37 aas y Æo] garo- 
=] b F9SCASABAOSA4GAVDATAMING (SQL Server 9. C 
= 0 数据 库 a 
pep Lj 延期 纳税 
图 C3 数据 库 快 照 NDATNITHG\ 数 需 库 \ 延 期 纳税 
am x EIS 
图 加 服务 器 对 。 新 建 查询 @) E 
s C3 SM RRESERMAISG ? 局 数 据 库 关系 图 
MEER oo ELIT 
Base 重 命名 加 Fo 
mw 


刷新 n REO 

m Ep 
xm 
arw 
传送 事务 日 志 QL) 


1-11 选择 “导入 数据 ”选项 
[ SoL Server 导入 和 导出 向 导 


欢迎 使 用 SQL Server 导入 和 导出 向 导 


此 向 导 可 帮助 您 包 孟 简单 包 ， 以 便 在 多 种 常用 数据 格式 (包括 数据 库 、 电 子 表格 和 文本 
文件 ) 之 间 导 入 和 导出 数据 。 此 疝 导 还 可 包 了 目标 数据 库 和 用 于 插入 数据 的 表 。 


v 不 再 显示 此 起 始 页 D. 


| 


图 1-12 打开 导入 和 导出 向 导 


B SoL Server 导入 和 导出 向 导 


选择 数据 源 
选择 要 从 中 复制 数据 的 源 . 


数据 源 (D) [O Microsoft Access 


若 要 进行 连接 请 选择 数据 库 : Microsoft Excel 

Bj Microsoft OLE DB Provider for Analysis Services 9.0 
B] Microsoft OLE DB Provider For Data Mining Services 
Bj Microsoft OLE DB Provider for Internet Publishing 
Bj Microsoft OLE DB Provider for OLAP Services 8.0 

Bj Microsoft OLE DB Provider for Oracle 

Bj Microsoft OLE DB Provider for SQL Server 


S QD. 
re : 
图 1-13 选择 数据 源 类 型 


(8) 单 击 “ 下 一 步 ”按钮 。 选 择 需 要 导入 的 数据 , 单 击 “ 打 开 ” 按 钮 ,如 图 1-14 所 示 。 


查找 范围 四 ;| 局 数据 仓库 与 数据 挖 扬 工 程 实例 了 -mretrE- 


器 3QLServer_2005_dev_ all dvà 
i5 [ 国 某 商业 银行 信贷 数据 .nab 
我 最 近 的 文档 ”| 三 三 于 二 


文件 各 加 某 市 国税 局 批准 延期 纳税 数据 .nab T 
XESSERD): [Microsoft Access 文件 (x.mdb) Y 取消 


1-14 选择 导入 数据 
(9) 在 弹出 的 “选择 数据 源 ” 页 面 中 , 单 击 “ 下 一 步 ”按钮 ,如 图 1-15 所 示 。 


B SoL Server 导入 和 导出 向 导 


选择 数据 源 
选择 要 从 中 复制 数据 的 源 。 


数据 源 qo: Gy Microsoft Access m 


若 要 进行 连接 ， 请 选择 数据 库 并 提供 用 尸 名 和 密码 。 悠 可 能 需要 指定 高 级 选项 。 


HERD [E EGEGTEEEGEIERET RESTE EEBUSTIRERERUBIUEE. nd 
RP& QD [ 
IE [ 


< 上 一 步 (B) 下 一 步 吕 > 取消 
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图 1-15 确定 导入 数据 


(10) 在 弹出 的 “选择 目标 ”页 面 中 , 单 击 “ 下 一 步 ” 按 钮 ,如 图 1-16 所 示 。 

(QD 在 弹出 的 “指定 表 复 制 或 查询 "页面 中 选择 “复制 一 个 或 多 个 表 或 视图 的 数据 ” 单 
选 按钮 并 单 击 “ 下 一 步 ” 按 钮 ,如 图 1-17 所 示 。 

(12) 在 弹出 的 “选择 源 表 和 源 视图 ”页 面 中 , 单 击 “ 全 选 ” 按 钮 ,如 图 1-18 所 示 。 所 有 需 
要 导入 的 数据 表 全 部 被 选中 , 单 击 “ 下 一 步 ” 按 钮 。 

(13) 单 击 “ 预 览 ” 对 导 人 数据 进行 预览 ,并 单 击 “ 确 定 ” 按 钮 ,如 图 1-19 所 示 。 


TER 


| SoL Server 导 大 和 导出 向 导 


选择 目标 
指定 要 将 数据 复制 面向 处 。 


EFW: [B SAL Native Client 
BBC3ASD507174F9] 


服务 器 名 称 (3) 


身份 验证 
C 使 用 Windows 身份 验证 (如 


C 使 用 SQL Server 身份 验证 (9) 
RP 


SH 
ERE c] sé) | see. 


Sum D 
QD 《上 一步 他 取消 
图 1-16 选择 目标 


Bi sar Server 导入 和 导出 向 导 
指定 表 复 制 或 查询 
指定 是 从 数据 源 复制 一 个 或 多 个 表 和 视图 ,还 是 从 数据 源 复 制 查询 结果 。 


此 选项 用 于 编写 SQL 查询 ， 以 便 对 复制 拘 作 的 源 数据 进行 操纵 或 限制 。 


CEP) 取消 E 


1-17. 指定 表 复 制 


TR OD 


| SoL Server 导入 和 导出 向 导 


选择 源 表 和 源 视 图 
选择 一 个 或 多 个 要 复制 的 表 和 视图 ， 


表 和 视图 (IT) 
源 目标 映射 
m [延期 纳税 ] [dbo]. [税务 机 关 代码 ] 编辑 
编辑 


Jv c) ERB dm 【延期 纳税 ]. [abo]. [延期 纳税 批件 ] j 
Iv 局 “征收 项 目 代码 dm DENMA]. [abo]. [征收 项 目 代码 ] ii. 


全 选 (8) SEO 
RI p 


«r-5g | 下 - 步 四 > | zu 


图 1-18 选择 源 表 


is cio REEL 


纳税 人 识别 号 。 | 征收 项 目 代码 WENNS 。 | 所属 由 上 um SERES E 


666207105008543 2002-11-1 0:00:00 2002-11-30 0:00:00 30997. 99 2002- — 
666227738726545 2002-11-1 0:00:00 2002-11-30 0:00:00 211545.94 2270000 2002- 


666223700620470 2002-9-1 0:00:00 2002-9-30 0:00:00 670257. 06 2002- 
666205804791805 2002-2-1 0:00:00 2002-2-28 0:00:00 978293. 92 2002- 


666223105013190 2002-2-1 0:00:00 2002-2-28 0:00:00 122785. 07 2002- 
666202104803537 2002-2-1 0:00:00 2002-2-28 0:00:00 47979. 63 2002- 
666225105071438 2002-11-1 0:00:00 2002-11-30 0:00:00 222588. 21 
666203730257991 2002-11-1 0:00:00 2002-11-30 0:00:00 52569.55 
666205723382997 2002-2-1 0:00:00 2002-2-28 0:00:00 65351. 85 


666202700726910 2002-10-1 0:00:00 2002-10-31 0:00:00 101574. 62 
< 


图 1-19 预览 数据 


(14) 在 “保存 并 执行 包 ” 页 面 中 , 单 击 “ 下 一 步 ” 按 钮 ,如 图 1-20 所 示 。 


LE DER 


保存 并 执行 包 
指示 是 否 保存 SSIS B. 


v BERT 
保存 
厂 保存 ssIs ao 

c 


c 


LT 《上 一 步 加 完成 四 d| 取消 
图 1-20 保存 并 执行 包 
(15) 在 弹出 的 “完成 该 向 导 ” 页 面 中 , 单 击 “ 完 成 ”按钮 ,如 图 1-21 所 示 。 


B soL server 导入 和 导出 向 导 DAR 


完成 该 向 导 
验证 在 向 导 中 选择 的 选项 并 单 击 “ 完 成 ” 


单 击 “ 完 成 ”以 执行 下 列 操作 : 


e ”将 “税务 机 关 代码 ”中 的 行 复制 到 [延期 纳税 ] [dbo]. [税务 机 关 代 码 ] 
将 创建 新 的 目标 表 。 
将 “延期 纳税 批件 ”中 的 行 复制 到 【延期 纳税 ] [abo]. [延期 纳税 批件 ] 
将 创建 新 的 目标 表 。 
将 “征收 项 目 代码 ”中 的 行 复制 到 | [延期 纳税 ]. [dbo]. [征收 项 目 代码 ] 
将 创建 新 的 目标 表 。 


将 不 保存 此 包 。 
此 包 格 立即 运行 。 


图 1-21 完成 导入 和 导出 向 导 


(16) 在 弹出 的 “执行 成 功 ? 对 话 框 中 , 单 击 “关闭 ?按钮 ,完成 数据 库 的 建立 ,如 图 1-22 
所 示 。 


E SoL Server 导入 和 导出 向 导 


正在 设置 目标 连接 

正在 验证 

WEERT 

执行 之 前 

正在 执行 

正在 复制 到 [延期 纳税 ]. [dbo]. [税务 机 关 代码 ] 
正在 复制 到 [延期 纳税 ] [dbo]. [延期 纳税 批件 ] 
正在 复制 到 【延期 纳税 ]. [dbo]. [征收 项 目 代码 ] 
3 执行 之 后 

o 清除 


mE v 


加 
2 
9 
2 
2 
3 
2 


GG 


图 1-22 完成 数据 库 建 立 


1.3.2 新 建 数据 源 


新 建 数据 源 的 操作 步骤 如 下 : 
(D 选择 “开始 ”一 “程序 ”一 Microsoft SQL Server 2005 — SQL Server Business 
Intelligence Development Studio 进入 Business Intelligence Development Studio( BIDS) ,如 


图 1-23 所 示 。 


Windors Catalog 


i^] Windows Update 


C) Analysis Services » 
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图 1-23 进入 BIOS 


(2) 选择 "文件 ”一 新建” 一 “项 目 ” 命 令 ,如 图 1-24 所 示 。 
二 人 


t EHT — 了 icrosoft Visual Studio 


文件 到 上 编辑 到 ) 视图 YW) IAV SOW SEC HW 
ELTI rD AR.. cuisse E - 


打开 四 » 0 xo Cerne 
关闭 


d ejje 


F SSRF Ctrltshiftts 


lo; 
ent of Service Packs by introducing Slipstream, 
Service Pack Uninstall, and Report Builder 2.0 Click Ünce 
capability. 

How Bo I BI 


Mon, 23 Mar 2009 04:21:06 -0700 ~ Explor: 
models in Business Intelligence Develoj Pr pert x 


le 
ANE 
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图 1-24 打开 “新 建 项 目 ” 选 项 


G) 在 “新 建 项 目 ” 对 话 框 中 选择 项 目 类 型 “商业 智能 下 的 Analysis Services 项 目 ”, 项 


目 名 称 为 “延期 纳税 ”, 单 击 * 确 定 ? 按 钮 ,创建 数据 挖掘 项 目 , 如 图 1-25 所 示 。 


项 目 闫 型 C): WED: 
商业 智能 项 目 Visual Studi 
[RENS isual Studio 已 安 装 的 模板 
Analysis Services MA "Integration Services ME 
JEA Analysis Services 9.0.. 册 报 表 服 务 器 项 目 向 导 


司 报 表 服 务 器 项 目 园 报 表 模 型 项 目 


我 的 模板 
TERREN. 


创建 新 的 Analysis Services MA 
名 称 QD : | 延期 纳税 | 


[C:\Documents and Settings\Administrator\My Documents\Visual Studio 2005\proj w| [浏览 (B). 
| [efr ROB V 
取消 


REED: C:\Documents 
解决 方案 名 称 如 ;延期 纳税 


1-25 创建 数据 挖掘 项 目 


(4) 在 “延期 纳税 ”的 解决 方案 资源 管理 器 中 , 右 击 “数据 源 ? 项 ,在 弹出 的 快捷 菜单 中 选 
择 “ 新 建 数据 源 ” 命 令 , 如 图 1-26 Bron 

C5) 在 弹出 的 “数据 源 向 导 ” 对 话 框 中 , 单 击 “ 下 一 步 " 按 钮 ,如 图 1-27 所 示 。 

(6) 在 弹出 的 “选择 如 何 定义 连接 ”页 面 中 , 单 击 “ 新 建 "按钮 ,如 图 1-28 所 示 。 

CD) 在 弹出 的 “连接 管理 器 ”对 话 框 中 ,设置 服务 器 名 为 前 面 建立 的 命名 空间 名 ,选择 
“使 用 Windows 身份 验证 ” 单 选 按 钮 ,数据 库 选 择 之 前 创建 的 “延期 纳税 ”, 单 击 “ 测 试 连接 ” 


按钮 ,如 图 1-29 所 示 。 
sq s 


To 延期 纳税 — Nicrosoft Visual Studio 


文件 四 S50 AEV SEO 生成 @) MO EFW IAV SOW HO 帮助 op 
ET EE 
BRR 


SQL Server 2000 Developer Training Kit 

Mon, 1 Jun 2009 09:09:00 40530 - The SQL Server 2008 
Developer Training Kit will help you understand how to 
build web applications which deeply exploit the rich data 
types, prograsaing models and ner developaent paradigas in 
SQL Server 2008 

SQL Server 2008 Service Pack 1 Wow Available 

Tue, 7 Apr 2009 17:09:01 -0700 - Service Pack 1 (SP1) 
Focuses on essential updates only, primarily roll-ups of 
cnulative updates | to 3 and fixes to issues reported 
through the SL Server comeunity. SPI eases deployment and 
management of Service Packs by introducing Slipstream, 
Service Pack Uninstall, and Report Builder 2.0 Click Ünce 
SE P) capability. 

TE P) Mov Do I BI 

2009 04:21:06 -0700 - Explore data mining 
usiness Intelligence Developaent Studio, part 


本 两 而 二 
正在 创建 项 目 “ 延 基 纳 税 , drproj” 


图 1-26 打开 “新 建 数 据 源 ” 选 项 
TUE 


欢迎 使 用 数据 源 向 导 


使 用 此 向 导 创建 新 数据 源 。 
数据 源 表示 到 | 数据 的 连接 。 


ME 


不 再 显示 此 页 O 


图 1-27 使 用 数据 源 向 导 


a 
选择 如 何 定 义 连接 
您 有 众多 方式 可 以 选择 ， 以 便 数 据 源 对 其 连接 字符 串 进行 定义 。 


COETHBISESSOSIESRERR CO] 
Er DE 数据 连接 属性 CD. 


C 基于 另 一 个 对 象 他 建 数据 源 亿 ) 


Jh OER RAER. 
«Esp || eo ] sse» xs | 


1-28 选择 如 何 定义 连接 


A 


L EREHE 


TUER: | 本 机 OLE DBYSQL Native Client 


Mss qo: 


[FSSCASABAOSMBAMDATMNING — 
登录 到 服务 器 


名 使 用 Windows 身份 验证 W 
CO 使 用 SQL Server. 身份 验证 @) 


连接 到 | 一 个 数据 库 


加 选择 或 输入 一 个 数据 库 
TA 


人 〇 附加 一 个 数据 库 文件 0 


图 1-29 设置 连接 管理 器 


(8) 在 弹出 的 “连接 测试 成 功 ” 页 面 中 , 单 击 “ 确 定 ” 按 钮 ,如 图 1-30 所 示 。 


1-30 连接 测试 成 功 页 面 


(9) 返回 到 “连接 管理 器 ”对 话 框 , 单 击 “ 确 定 ” 按 钮 ,如 图 1-31 所 示 。 


L ERENS 


提供 程序 E): | 本 机 OLE DB\SQL Native Client 


g | nes 
[FSSCASABADSAABANDATAMTNG 


登录 到 服务 器 

全 使 用 Windows 身份 验证 W 

OB SQL Server 身份 验证 @) 
| 


连接 到 一 个 数据 库 
加 选择 或 输入 一 个 数据 库 名 QD: 


〇 附加 一 个 数据 库 文件 中 


图 1-31 返回 到 “连接 管理 器 ”对 话 框 


ad cs 


(10) 在 弹出 的 “选择 如 何 定义 连接 ”页 面 中 , 单 击 “ 下 一 步 ”按钮 ,如 图 1-32 所 示 。 


国 数据 源 向 导 


选择 如 何 定义 连接 
您 有 众多 方式 可 以 选择 ， 以 便 数 据 源 对 其 连接 宇 符 审 进行 定义 。 


O 基于 现 有 连接 或 新 这 接 创建 数据 源 (C) 


EEEESEISENITTISEEUSIED 未 iB 
FOSCASABAOSAAGAVDA. .. 
RABI 


Data Source 
Initial Ca... 
Integrated... SSPI 
Provider SQLNCLI. 1 


«r-5g J[T-59» | mmo» ]| ma | 


1-32 选择 如 何 定义 连接 


(OD 在 弹出 的 “来 自 现 有 对 象 的 数据 源 ” 页 面 中 ,选择 “基于 Analysis Services 项 目 创 
建 数据 源 " 单 选 按 钮 , 单 击 “ 下 一 步 ” 按 钮 ,如 图 1-33 所 示 。 


国 数据 源 向 导 


来 自 现 有 对 象 的 数据 源 
您 可 以 创建 新 数据 源 ,也 可 以 基于 现 有 对 象 创建 数据 源 。 


O 基于 解决 方案 中 的 现 有 数据 源 创建 数据 源 QD 


| 延期 纳税 


《上 一 步 @) T—EQ? TRE) 六 | 取消 


图 1-33 选择 “基于 Analysis Services 项 目 创建 数据 源 ” 


(12) 在 弹出 的 “模拟 信息 ”页 面 中 ,选择 “使 用 服务 账户 ” 单 选 按 钮 , 单 击 “ 下 一 步 ” 按 


钮 ,如 图 1-34 所 示 。 
(13) 在 弹出 的 “完成 向 导 ” 页 面 中 ,选择 “使 用 服务 账户 ”, 单 击 “ 完 成 ”按钮 ,如 图 1-35 


所 示 。 


. ]4 。 


国 数据 源 向 导 
模拟 信息 
可 以 定义 Analysis Services 使 用 何 种 任 据 来 连接 到 | 数据 源 。 


O 使 用 特定 用 户 名 和 密码 G) 


O 使 用 当前 用 户 的 其 据 Q) 


O 默认 值 到) 


《 上 一 步 @) 下 一 步 m > 


图 1-34 设置 模拟 信息 


UR 数据 源 向 导 


完成 向 导 


请 提供 一 个 名 称 ， 然 后 单 击 “ 完 成 ”以 创建 新 数据 源 。 


数据 源 名 称 QD 
[ E8657] 


mA L): 


ERFHE.: 


Hog der-SQLNCLI.1;Data Source-3BC3ASDSOT1T4F9;Integrated SecuritycSSPI;Initial Catalog-AEHf 


图 1-35 完成 新 建 数据 源 


1.3.3 新 建 数据 源 视 图 
新 建 数据 源 视图 的 操作 步骤 如 下 : 


(1) 建立 数据 源 之 后 ,建立 数据 源 视图 ,在 数据 源 视图 上 右 击 , 在 弹出 的 菜单 中 选择 “新 
建 数据 源 视图 ”命令 ,如 图 1-36 所 示 。 
(2) 在 弹出 的 “数据 源 视 图 向 导 ” 对 话 框 中 , 单 击 “ 下 一 步 ” 按 钮 ,如 图 1-37 所 示 。 


(3) 在 弹出 的 “选择 数据 源 ” 页 面 中 ,选择 刚刚 建立 的 数据 源 “ 延 期 纳税 ”项 , 单 击 “ 下 一 
步 ” 按 钮 ,如 图 1-38 所 示 。 
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S 延期 纳税 - Nicrosoft Visual Studio DEOR 
XD RED AEV ME 生成 @) MEV SEEQ IAV FOW HEC Wo) 
b tnont - TSE 


SQL Server 2008 Developer Training Kit 

Mom, 1 Jun 2009 09:09:00 +0530 - The SQL Server 2008 
Developer Training Kit will help you understand hor to 
build web applications which deeply exploit the rich data 
types, programming models and new developaent paradigas in 
SQL Server 2008. 

SQL Server 2008 Service Pack 1 Now Available 

Tue, 7 Apr 2009 17:09:01 -0700 - Service Pack 1 (SP1) 
focuses on essential updates only, primarily roll-ups of 
cumulative updates 1 to 3 and fixes to issues reported 
through the SQL Server community. SPI eases deployment and 
nanagenent of Service Packs by introducing Slipstream, 
Service Pack Uninstall, and Report Builder 2.0 Click Ünce 
capability. 

Hov De I BI 

Mon, 23 Mar 2009 04:21:06 -0700 - Explore data mining 
models in Business Intelligence Developaent Studio, part S 


FILI 


正在 包 建 项 目 “ 延 期 纳税 , dproj”, . ， 项 目 自 建 成功。 


图 1-36 选择 新 建 数据 源 视图 


双 数据 源 视图 向 导 


欢迎 使 用 数据 源 视图 向 导 


使 用 此 向 导 创 建新 的 数据 源 视图 。 
从 关系 数据 库 的 表 和 视图 中 创建 数据 源 视 图 。 


i 


不 再 显示 此 页 O) 


图 1-37 使 用 数据 源 视 图 向 导 


半数 据 源 祝 图 向 导 


选择 数据 源 
选择 现 有 的 关系 数据 源 ,或 新 建 一 个 关系 数据 源 。 


| 属性 
Data Source — 3EC3ASDSOTIT4FS 
Initial Ca. 
Integrated... SSPI 
Provider SQLNCLI. 1 


图 1-38 选择 数据 源 


(4) 在 弹出 的 “名 称 匹配 ”页 面 中 , 单 击 “ 下 一 步 ” 按 钮 进行 名 称 匹 配 , 如 图 1-39 所 示 。 


UE Sie e mE PH S 


ARLE 
READE. RILUCEUURCRSAI EGIRESEIROR - 


外 键 匹配 
O 与 主键 同名 @) 
O 与 目标 表 同名 W 


O 目标 表 名 + 主键 名 QD 


说 明和 示例 : 
源 外 键 列 名 与 目标 表 的 主键 列 名 相同 。 例 如 : 


Order. CustomerID 与 Customer. CustomerID 


< 上 一 步 @) 下 一 步 @ > 
图 1-39 进行 名 称 匹 配 


(5) 在 弹出 的 “选择 表 和 视图 页面 中 ,把 可 选 对 象 中 所 有 的 数据 选 到 包含 的 对 象 中 , 单 
击 “ 下 一 步 ” 按 钮 ,如 图 1-40 所 示 。 


届 数据 源 视图 向 导 


择 表 和 视图 
从 要 包 合 在 数据 源 视图 中 的 关系 数据 库 中 选择 对 象 。 


可 用 对 象 4) Er DH 


名 称 名 称 
BETECETIEXGS] 
BN 
[M] abo. 征收 项 目 代码 


m 
四 


第 选 器 D 
显示 系统 对 象 0) 


已 


图 1-40 选择 表 和 视图 


(6) 在 “完成 向 导 ” 对 话 框 中 , 单 击 “完成 ”按钮 ,如 图 1-41 所 示 。 
(7) 得 到 建立 的 数据 源 视图 ,如 图 1-42 所 示 。 
1.3.4 浏览 数据 


(1) 选中 新 建 的 “延期 纳税 批件 ” 表 , 在 右键 菜单 中 选择 “浏览 数据 ”命令 ,如 图 1-43 所 示 。 
. ]7 。 


T 数据 源 祝 图 向 导 
完成 向 导 
请 提供 一 个 名 称 ， 然后 单 击 “ 完 成 ”以 外 建新 数据 源 视图 。 


Ho 


c d RERBRBL 
C] abo 税务 机 关 代码 
C] abo. 延 期 纳税 批件 


C] qbe. 征 收 项 目 代码 


1-41 ”完成 向 导 


Microsoft Visual Studio 
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图 1-42 新 建 数据 源 视图 完成 

T 廷 期 纳税 - Microsoft Visual Studio 

XM SEO WE ORB 生成 @@) MIV 格式 @) BEFA 
J h 
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数据 源 视 图 G) IATD SOW «zo 
Developeent » CJ 9 ze 
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LETT 
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I] ERMAR (dbo. 延期 纳税 批件 ) 


Ja 征收 项 目 代码 (bo 征收 项 目 代码 ) 


图 1-43 选择 浏览 数据 


(2) 进行 数据 的 浏览 ,并 且 可 以 切换 到 “透视 表 ”“ 图 表 ”“ 透 视图 ”, 如 图 二 44 一 图 1-47 所 示 。 
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图 1-45 ”切换 到 透视 表 
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图 1-46 切换 到 图 表 


”延期 纳税 一 要 crosoft Visual Studio 
XPD SEO HEV AR 生成 四 MEW 数据库) IR SOW 社区 CE) EHW 


500000000. 


400000000: 


300000000. 


200000000. 


100000000. 
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1-47 切换 到 透视 图 


1.3.5 数据 分 析 


数据 分 析 的 步骤 如 下 : 
CD 对 年 份 数据 进行 趋势 分 析 , 在 透视 图 中 把 “审批 时 间 ”, “税额 ”两 个 维度 拖 忠 到 表 
中 ,如 图 1-48 所 示 。 


*, 延期 纳税 — icrosoft Visual Studio 
文件 中 ”编辑 EE) NDV MA EED MEY REFA IAV SOW dE) WHW 
p Developeent - 23 9 E 


Eo ES 


500000000. 


图 1-48 进行 维度 拖 电 


由 于 该 项 目的 审计 时 间 是 2004 年 3 月 ,所 以 2004 年 数据 显示 的 是 2004 年 1 月 和 2 月 
的 延期 纳税 审批 金额 ,因此 和 暂 不 将 2004 年 的 数据 与 2002 年 和 2003 年 的 数据 进行 比较 。 从 
显示 的 数据 可 以 看 出 ,2002 年 全 市 国税 系统 共 审 核 批准 延期 纳税 648 767 250. 50 元 ,而 


。20 。 


2003 年 则 审批 1 561 835 634. 09 元 ,是 2002 年 的 两 倍 多 。 因 此 ,应 重点 审计 2003 年 的 审批 
(2) 对 月 份 数据 进行 趋势 分 析 , 把 透视 图 中 “审批 时 间 ” 确 定 到 2003 年 ,并 且 按 月 份 拖 
人 表 中 ,如 图 1-49 所 示 。 


^2 延期 纳税 — 了 icrosoft Visual StudTo 
SBD NBV ORB 生成 @) MEV 数据库) IAW SOW 社区 局 ”帮助 人 0 
bian s 3) 3p EDIl 
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400000000 


sit 
显示 以 下 输出 S) 


Nr] 错误 列表 
St 


1-49 对 审批 时 间 数 据 下 钻 


从 图 1-49 中 可 以 看 出 ,审批 行为 主要 集中 在 年 底 。 从 2003 年 9 月 开始 一 直到 12 月 ， 
审批 金额 明显 高 于 当年 的 其 他 月 份 。 经 过 简单 计算 即 可 得 出 年 底 4 个 月 的 审批 金额 占 到 全 
年 金额 的 60%。 对 2002 年 的 数据 进行 同样 的 分 析 也 可 以 得 出 类 似 的 结论 ,9 一 12 月 的 审批 
金额 占 到 全 年 金额 的 90%% 。 

我 国 现行 的 税收 工作 考核 机 制 实行 的 是 “基数 加 增长 比率 ”的 传统 方法 。 如 果 税 务 部 门 
当年 的 入 库 税 收 超过 了 上 级 下 达 的 收入 任务 ,那么 下 一 年 的 任务 将 在 实际 和 人 库 的 基础 上 继 
续 按照 一 定 的 比率 增长 ,从 而 给 税务 部 门 形 成 较 大 的 压力 。 因 此 ,一 些 税收 任务 完成 较 好 的 
税务 部 门 为 了 使 人 库 税收 不 至 于 过 多 超过 收入 任务 ,往往 在 年 底 人 为 调节 税收 收入 进度 ,给 
纳税 人 批准 延期 纳税 是 常用 的 调节 手段 之 一 。 

根据 上 述 审计 经 验 , 并 结合 建立 的 多 维 数据 集 对 月 份 数据 的 分 析 , 某 市 国税 局 在 被 审计 
年 度 内 如 此 集中 地 于 年 底 审批 延期 纳税 引起 了 审计 人 员 的 关注 。 

C3) 对 各 县 区 国税 局 的 审批 情况 进行 比较 分 析 , 把 “税务 机 关 代码 ”这 一 维度 拖 忠 到 表 
中 ,如 图 1-50 所 示 。 该 市 下 辖区 县 众多 ,对 各 个 区 县 的 国税 局 逐一 进行 审计 是 不 可 能 的 ,如 
何 确定 重点 审计 地 区 是 审 前 调查 阶段 的 一 项 重要 任务 。 

(4) 从 图 中 可 以 得 到 税务 代码 为 2030000、2070000、2270000、2810000 这 4 个 地 区 的 国 
税 局 审批 的 延期 纳税 金额 远 远 高 于 其 他 区 县 ,如 图 1-51 所 示 , 可 对 应 得 到 G、LN、P 这 4 个 
区 的 国税 局 审批 的 延期 纳税 金额 远 远 高 于 其 他 区 县 ,因此 可 以 把 它们 作为 重点 审计 对 象 。 

(5) 根据 经 验 对 数据 进行 其 他 分 析 , 在 上 述 基 础 上 把 “审批 时 间 ” 确 定 为 2003 年 的 各 个 
月 份 , “税务 机 关 代 码 ” 确 定 为 2030000, 2070000, 2270000 , 2810000, 4E € 1 Ki A K P , 40 
图 1-52 所 示 。 
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图 1-51 确定 重点 审计 对 象 
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图 1-52 tfi Ede 


(6) 经 过 观察 分 析 ,发 现 税务 机 构 代 码 为 2810000 在 2~7 月 连续 出 现 税务 额 为 整数 的 
情况 ,所 以 把 “税务 机 关 代码 "选择 为 28310000 ,继续 分 析 ,如 图 1-53 所 示 。 
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图 1-53 进一步 确定 审计 重点 


由 经 验 可 得 纳税 人 应 该 缴纳 的 税额 很 少 有 整数 的 情况 出 现 ,分 析 至 此 ,该 市 某 些 国税 部 
门 批 准 企业 延期 纳税 、 人 为 调节 税收 入 库 的 可 能 性 比较 大 。 

由 上 述 分 析 可 得 出 代码 为 2810000 的 工区 国家 税务 局 从 2003 年 2 一 4 月 连续 出 现 审批 
金额 为 整数 的 情况 ,引起 了 审计 人 员 的 重视 ,审计 重点 进一步 得 到 了 明确 。 


1.4 案例 总 结 


本 章 上 述 案例 中 ,首先 针对 性 地 获得 了 电子 数据 ,然后 通过 事实 数据 表 的 选取 和 维度 的 
建立 构建 了 多 维 数据 集 , 在 建立 总 体 分 析 模 型 的 基础 上 结合 审计 经 验 从 多 个 角度 对 数据 进 
行 了 分 析 。 从 统 揽 全 局 .把 握 总 体 开始 ,观察 趋势 .选择 重点 .运用 销 取 、 掌 握 明 细 , 最 后 发 现 
线索 ,找到 重点 突破 口 ,引导 延伸 ,这 些 是 本 案例 的 基本 思路 和 操作 过 程 。 

本 案例 中 ,始终 把 需求 作为 主线 和 重点 , 随 着 多 维 数据 集 的 构建 和 分 析 的 逐步 深入 ,一 
步 一 步 确定 审计 重点 、 缩 小 审计 范围 。 在 这 个 审计 案例 中 ,多 维 联机 分 析 处 理 审计 不 仅仅 体 
现 为 一 种 先进 的 技术 和 方法 ,更 是 作为 一 种 思维 方式 在 审计 的 整个 过 程 中 得 到 了 贯穿 和 
体现 。 
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实例 2 基于 关联 规则 方法 的 网 上 交易 服务 
质量 评价 分 析 


2.1 任务 描述 


科技 变革 与 信息 技术 的 发 展 ,使 得 产品 与 服务 在 线 交 易 成 为 企业 与 消费 者 无 法 回避 的 
选择 。 到 2010 年 ,中 国 网 上 购物 市 场 的 交易 额 已 达到 1800 亿 元 。 在 线 交 易 市 场 具有 极 好 
的 发 展 前 景 , 已 成 为 传统 消费 方式 的 一 种 替代 。 但 网 络 虚拟 空间 的 特性 ,无 疑 提 高 了 消费 者 
交易 的 风险 和 感知 服务 质量 评价 的 难度 ,也 加 大 了 企业 服务 质量 改进 的 难度 。 

在 互联 网 环境 下 ,哪些 因素 会 决定 着 服务 质量 水 平 呢 ?” 某 研究 机 构 罗 列 了 29 个 有 可 能 
影响 服务 质量 水 平 的 因素 和 1 个 决策 属性 “顾客 情绪 不 佳 ”*。 这 30 个 因素 为 : 

性 别 (xb); 

商家 称 网 络 系统 有 误 (shjxtyw); 
顾客 感觉 网 络 系统 有 误 (gkxtyw) ; 
商家 突然 涨 价 (shjz)， 

网 络 价格 与 实 收 价格 不 一 致 (jgbyz) ; 
服务 过 程 中 乱 收 费 (fwlshf); 

产品 质量 问题 (zhlwt); 

服务 不 讲 诚信 (fwbchx) ; 

误导 消费 者 (wdxfzh); 

商家 称 工 作 失 误 (shjgzshw) ; 
顾客 感觉 工作 失误 (gkgzshw); 
服务 态度 差 (fwtdch) ; 

不 合理 的 规定 (霸王 条 款 )(bhlgd); 
不 能 在 网 站 查询 交易 的 步骤 (bnchxjybzh); 
企业 对 交易 的 反应 速度 慢 (fysdmy) ; 
企业 对 交易 的 反应 天 数 (fytsh); 
退货 后 不 能 成 功 退 款 (bchgtk); 

退 款 的 速度 慢 (tksdm); 

退 款 天 数 (tktsh); 

对 投诉 的 处 理 结果 糟糕 (tsjgz) ; 

对 投诉 的 处 理 速度 慢 (tschlm); 
投诉 处 理 天 数 (tschltsh); 
客服 打 不 通 (kfdbt); 
客服 态度 差 (kftdch) ; 

发 票 速 度 慢 (fpsdm); 

gA s 


。 开发 票 天 数 (kfptsh) ; 

。 发 票 (行程 单 ) 错 误 (fpcw); 

。 多 次 修改 仍 不 对 (dcxgbd) ; 

。 产品 等 被 擅自 更 换 (chpbgh); 

。 顾客 情绪 不 佳 (gkqqbj) 。 

另外 ,此 研究 机 构 还 搜集 了 1366 个 顾客 的 数据 ,部 分 原始 数据 如 表 2-1 所 示 ,请 根据 这 
些 数 据 ( 服 务 质量 数据 1. xls) 进 行 以 下 分 析 。 


表 2-1 部 分 原始 数据 
编 EGR) | 商家 称 网 络 系统 有 误 顾客 感觉 网 络 系统 有 误 商家 突然 汝 价 “网络 价格 与 实 收 价格 不 一 致 ”服务 过 程 中 乱 收 费 “产品 质量 问题 


Lee ro [e | | NNNHNNN eS | H NINN 
o|o|oooo|o-oooooooooooe 
eeeeeeeeeerewmeeeeee 
olo o obolo o ooo oo ooo obolo 
oooboooooouno ooo ooo o 
ooooooooooonHn ooo ooloo 
morcooccccccccowomccrosesoc 


(1) 找 出 29 个 因素 中 影响 服务 质量 的 主要 因素 。 
(2) 找 出 主要 影响 因素 和 服务 质量 水 平 之 间 的 关联 规则 。 


2.2 技术 原理 


2.2.1 关联 规则 的 概念 


关联 规则 是 形 如 ASB 的 蕴涵 式 。 规 则 ASB HFE SCA POE SUN D 中 包含 AU 
B 的 事务 所 占 的 百分比 ,表示 项 集 AUB 在 D 中 出 现 的 概率 。 规 则 A- DB 的 置信 和 度 c 定义 
为 D PRAHE AUB 的 事务 数 和 包含 项 集 A 的 事务 数 的 比值 ,表示 当 项 集 A 出 现时 ,项 
R B 出 现 的 概率 ,置信 度 大 于 用 户 指 定 的 最 小 置信 度 值 的 规则 是 可 信 的 。 

关联 规则 computer = > antivirus. software ( support = 2% , confidence = 60 4) ,表示 
2% 的 顾客 同时 购买 计算 机 和 杀毒 软件 ,购买 计算 机 的 顾客 60% 也 购买 了 杀毒 软件 。 


2.2.2 Apriori 算法 


Apriori 的 命名 是 因为 算法 使 用 了 频繁 项 集 性 质 的 先 验 知识 , 即 Apriori 性 质 。Apriori 
性 质 的 内 容 是 : 频繁 项 集 的 所 有 非 空 子 集 也 都 必须 是 频繁 的 。 此 性 质 被 用 于 减少 候选 频繁 
项 集 的 数量 。Apriori 算法 将 发 现 关联 规则 的 过 程 分 为 两 步 : 第 1 步 是 通过 友 代 ,检索 出 源 
数据 中 的 所 有 频繁 项 集 , 即 支持 度 不 低 于 用 户 设 定 阅 值 的 项 集 ;第 2 步 是 利用 第 1 步 中 检索 
出 的 频繁 项 集 构 造 出 满足 用 户 最 小 信任 度 的 规则 。 
对 于 如 表 2-2 所 示 的 数据 集 ,产生 频繁 项 集 的 过 程 如 图 2-1 所 示 。 
EUM 


R22 某 销售 数据 集 


商品 ID 的 列表 商品 ID 的 列表 商品 ID 的 列表 


T100 I1,I2 ,I5 11.12.14 11,13 


T200 12,14 5 I,13 I1,12,13,15 


I1.12,I3 


C, Li 
项 集 | 支持 度 计 数 项 集 | 支持 度 计数 
[m 6 {1} 6 
扫描 D， 对 每 ”| {12} 7 比较 候选 支持 度 计数 | {12} 7 
个 候选 计数 {13} 6 与 最 小 支持 度 计数 | {13} 6 
— | {14} 2 {14} 2 
{15} 2 {15} 2 
C C L, 
项 集 项 集 | 支持 度 计 数 项 集 | 支持 度 计 数 
由 Ll 产生 | {11,12} | 扫描 D， 对 每 [411,123 4 比较 候选 支持 度 计 数 |{11,12} 4 
候选 C。 “| {11,13}| 个 候选 计数 “|f1113} 4 与 最 小 支持 度 计数 |{11,13} 4 
{11,14} {11,14} 1 = LIS? P 
{11,15} {11,15} 2 {12,13} 4 
{12,13} {12,13} 4 {12,14} 2 
{12,14} {12,14} 2 {12,15} 2 
{12,15} {12,15} 2 
{13,14} {13,14} 0 
{13.15} {13,15} 1 
{14.15} {14,15} 0 
C; C; Ls 
项 项 寺 度 1 寺 度 计 
由 万 产 生 ji fe HD. XH 页 集 “| 支持 度 计数 比较 候选 支持 度 计数 项 集 | 支持 度 计数 
候选 C， “| {11,12,I13}| 个 候选 计数 “| 2,37 2 与 最 小 支持 度 计 数 。 |{11,12,13} 2 
{11,12,15} {11,12,15} 2 {11,12,15} 2 


2-1 产生 频繁 项 集 示例 


2.3 具体 实现 


(1) 通过 对 影响 因素 的 初步 解读 ,有 些 因素 表示 的 信息 重复 ,如 企业 对 交易 的 反应 速度 
慢 (ysdm) 和 企业 对 交易 的 反应 天 数 (fytsh) 、 退 款 的 速度 慢 (tksdm) 和 退 款 天 数 (tktsh) 、 对 
投诉 的 处 理 速 度 慢 (tschlm) 和 投诉 处 理 天 数 (tschltsh) ,发 票 速度 慢 (fpsdm) 和 开发 票 天 数 
(kfptsh)。 于 是 可 将 下 列表 示 重 复 信息 的 因素 删除 : 

。 企业 对 交易 的 反应 天 数 (fytsh); 

。 退 款 天 数 (Ctktsh) ; 

。 投诉 处 理 天 数 (tschltsh) ; 

。 开发 票 天 数 (kfptsh) 。 

C2) 将 影响 因素 的 中 文 表示 替换 成 英文 表示 ;将 缺失 数据 用 null 进行 填充 ;将 属性 值 进 
行 以 下 离散 化 , 预 处 理 后 的 数据 存储 在 文件 “服务 质量 数据 2. csv” 中 。 

。 若 属性 值 为 0, 则 将 属性 值 蔡 换 为 as 

Egg 


。 若 属性 值 大 于 0 且 小 于 等 于 1, 则 将 属性 值 蔡 换 为 b; 
。 若 属性 值 大 于 1 且 小 于 等 于 2, 则 将 属性 值 蔡 换 为 cs 
。 若 属性 值 大 于 2 上 且 小 于 等 于 3, 则 将 属性 值 蔡 换 为 d。 
G) 选择 “开始 ”>“ 所 有 程序 ”>Weka3. 6. 5— Weka3. 6 命令 ,如 图 2-2 所 示 。 


同 Microsoft Office 

Wd Windows Install Clean Up Æ) Docunentation 

(f) MathType 5 (Q9 Uninstall Yeka 3.6.5 
加 tere T Weka 3.6 

篇 teka 3.6.5 Q Yeka 3.6 (with console) 


E Microsoft Silverlight 
E] A) Microsoft SQL Server 2005 


图 2-2 打开 Weka 软件 


(4) 单 击 Explorer 按钮 ,如 图 2-3 所 示 。 


(# Feka GUI Chooser [- ey) 
Program Visuslization Tools Help 
Applications 
WEKA 
The University 
of Waikato 


Experimenter 


Taikato Environment for Knowledge Analysis KnowledgeFlow 
Version 3.6.5 
{e) 1999 - 2011 


The University of Wailato Simple CLI 
Hamilton, Bew Zealand 


图 2-3 打开 Explorer 应 用 


(5) 单 击 Open file 按钮 ,选择 要 打开 的 文件 “服务 质量 数据 2. csv”。 单 击 “ 打 开 ” 按 钮 ， 
如 图 2-4 所 示 。 


(t Weka Explorer 


Current relation E E) RS ABE csv 
Relation: None 
Instances: None 


Attributes 


«9 文件 各 : 。 | 服务 质量 数据 2 csv 
RENE | 文件 类型: 


[CSV data files (ves 


Status 
Welcome to the Weka Explorer 


图 2-4 打开 数据 文件 
LOR a 


(6) 在 如 图 2-5 所 示 的 界面 中 ,可 以 知道 “服务 质量 数据 2 数据 集中 共有 1366 个 实例 ， 
每 个 实例 有 26 个 属性 。 选 中 某 个 属性 ,可 以 查看 1366 个 实例 关于 这 个 属性 的 属性 值 取 值 
信息 。 


(Fi Feka Explorer 


Preprocess | Classify| Cluster | Associate | Select attributes | Visualize! 


[Open file... ][ open we [open 0B... ][ Senerate. 


Filter 
[enoose ione 


Current relation 


Relation: 服务 质量 数据 2 
Instances: 1368 Attributes: 26 


Apply 
Selected attribute 
: Type: Nominal 
Distinct: 4 Unique: 0 08) 
Attributes Count 
|628 
[aos 
IE: 
|28 


v [ vissaize Al 


图 2-5 查看 数据 特征 


(7) 单 击 Select Attributes 标签 ,在 Attribute Evaluator 栏 中 选择 SfsSubsetEval 项 , 单 
ili Close 按钮 ,如 图 2-6 所 示 。 


(Fi Weka Explorer 


| Preprocess| Classify | Cluster | Associate| Select attributes | Visualize 


Attribute Evaluator 


ChiSquaredAttributeEval 
ClassifierSubsetEval 
ConsistencySubsetEval 
CostSensi tiveAttributeEval selection output 
CostSensi tiveSubsetEval 
FilteredAttributeEval 
FilteredSubsetEval 
GainRatioAttributeEval 
InfoGainAttributeEval 
LatentSemanticAnalysis 
ÜneRAttributeEval 
PrincipslConponents 
ReliefAttributeEval 


SynmetricalUncertAttributeEval 
YrapperSubsetEval 


Filter. Benove filter Close ] 


Status 
0K 


图 2-6 选择 属性 选取 方法 


(8) 在 Search Method 栏 中 选择 BestFirst 项 并 单 击 Close 按钮 ,如 图 2-7 所 示 。 


(F) Feka Explorer 


|Preprocess | Classi fy | Cluster | Associate] Select attributes | Yisualize| 


Attribute Evaluator 
Choose |CfsSubsetEval 


Search Method 


ITEM 
HC) attributeSelection 
. selection output 
© ExhaustiveSearch 
© GeneticSearch 
© GreedyStepyise 
© LinearForvardSelection 
ReceSearch 
RendonSearch 
Ranker 
RanlSearch 
SeatterSearchy1 
SubsetSi zePorwardSelection 


2-7 选择 搜索 方法 


(9) 单 击 Start 按钮 ,运行 结果 如 图 2-8 所 示 ,可 知 在 25 个 因素 中 ,fwbchx、 gkgzshw、 
fwtdch,bnchxjybzh fysdm kftdch 六 个 因素 为 重要 因素 。 


($) Weka Explorer 
Preprocess | Classify | Cluster | Associate | Select attributes | Visualize 


Attribute Evaluator 
Choose |CfsSubsetEval 


Search Method 
Choose |BestFirst -D 1 -N 5 


Attribute Selection Mode Attribute selection output 
© Use full training set Best first. 

NUM Start set: no attributes 
O Crosrvalidetion Search direction: forward 
Stale search after 5 node expansions 
Total number of subsets evaluated: 206 
Merit of best subset found: 0.23 


Attribute Subset Evaluator (supervised, Class (nominal): 26 gkqqbj): 
CFS Subset Evaluator 
Including locally predictive attributes 


Selected attributes: 8,11,12,14,15,21 : 6 
fubchx 
gkgzshw 
futdch 
bnchxjybzh 
fysdn 
kftdch 


Status 
DK 


图 2-8 得 到 重要 属性 


C100 对 “服务 质量 数据 2” 数 据 表 进行 处 理 , 只 保留 以 上 6 个 影响 因素 和 1 个 决策 属性 ， 
得 到 “服务 质量 数据 3 数据 表 。 
(11) 打开 文件 “服务 质量 数据 3. csv”, 如 图 2-9 所 示 。 


[cal Explorer 


Preprocess | Classi ty | Cluster | Associate | Select attributes Visualize. 


: ORA 关联 规则 网 站 服务 质量 评价 


Current relation 1 服务 质量 数据 2. cv 
Relation: 服务 Z 服务 质量 数据 3._cs| MERI 
Instances: 1366 "rr ue; 0 (DX) 


Attributes 


& 


PLESE EMR: [Osy data files (eer) 


Status 
OK 


图 2-9 根据 重要 属性 得 到 新 数据 表 


(12) Hf Associate 标签 ,并 选择 Apriori 算法 ,如 图 2-10 所 示 。 


(Feka Explorer 


| Preprocess | Classify | Cluster | Associate | Select attributes | Visualize| 


Associator 
[E weka -0 -M 0.1 -S -1.0 -e -1 
SO associations 

e VEn 

* FilteredAssociator 

. 

© Generali zedSequenti elPatterns 


liator output 


© PredictiveApriori 
© Tertius 


2-10 选择 Aprior 算法 


(13) 双击 Apriori 可 以 对 算法 的 参数 进行 设置 ,参数 设置 如 图 2-11 所 示 。 
(14) 单 击 Start 按钮 , Weka 软件 显示 运行 结果 ,如 图 2-12 所 示 。 
(15) 在 结果 显示 中 还 可 以 看 到 ,一 共 得 到 10 条 关联 规则 ,在 每 条 规则 后 附 有 规则 的 置 
信和 度 。 第 一 条 规则 为 fwbchx-d kftdch—d 160 >gkqqgbj=d 145 conf: (0. 91) 。 这 条 
. 30 。 


Explorer 


)weka. gui. GenericObjectEditor 


| Preprocess | Classi£y| Cluster | 


Associator 


MM] weka associations. Apriori 
Choose |Apriori -N 10 ~ 
Imc cd About 


Stert Stop g Class implementing an Apriori-type algorithm. More 


Result list (right-cli Capsbilities 


14:48:08 — Apriori | 


lowerBoundllinSupport 


metricType |Confidence 


minlletric |0.T 


munRules | 


outputItenSets 


removelllMissingCols | 


significancelevel | 


wpperBoundlinSupport | 


verbose | 


Status 


ok [ me... Jt 


图 2-11 进行 算法 参数 设置 


|Preprocess | Classify Cluster, Associate | Sel, 
Associator 


Apriori -N 10 -T 0 -C 0.7 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -A -e -1 


Associator output 


S: f set of li temsets L(3): 
Result list (right-cli ESAE NE RTAS AERE etait 


14:46:09 — Apriori | | Size of set of large itensets L(4): 
Size of set of large itemsets L(5): 
Size of set of large itemsets L(6): 


Best rules found: 


1l. fubchxed kftdched 160 ==> gkqgbj-d 145 conf:(0.91) 

2. gkgzshwed kftdched 154 ==> gkqqbj-d 139 conf: (0.9) 

3. fwbchx-d gkgzshw-d futdch-d 184 ==> gkqqbj-d 166 conf: (0.9) 
4. fubchxed futdch=d 200 ==> gkqqbj-d 178 conf: (0.89) 

5. gkgzshw-d fwtdched 195 ==> gkqqbj-d 173 conf: (0.89) 

6. kftdched 193 ==> gkqqbj-d 165 conf: (0.85) 

7. fwtdch-d 226 ==> gkqqbj-d 193 conf: (0.85) 

8. fwbchxed gkgzshw-d 241 ==> gkqqbj-d 203 conf: (0.84) 

9. gkgzshw-d 304 ==> gkqqbj-d 226 conf: (0.74) 


10. fubchx=d 332 ==> gkqqbj-d 238 conf: (0.72) 


Status 
DK 


图 2-12 得 到 关联 规则 


规则 可 以 解释 为 ,在 1366 名 客户 中 ,有 160 名 客户 认为 服务 不 讲 诚 信 且 客服 态度 差 ,其 中 的 
145 名 客户 因此 导致 情绪 不 佳 , 即 对 服务 质量 不 满意 。 
至 此 ,得 到 了 影响 服务 质量 的 主要 因素 以 及 可 能 导致 顾客 情绪 不 佳 的 关联 知识 ,完成 了 


。 3] 。 


任务 要 求 。 


2.4 案例 小 结 


在 线 网 上 交易 市 场 具 有 极 好 的 发 展 前 景 ,但 由 于 网 络 的 一 些 特性 ,使 得 网 上 交易 的 服务 
质量 评价 不 同 于 传统 的 服务 质量 评价 ,于 是 网 上 交易 服务 质量 如 何 进行 评价 成 为 管理 科学 
的 一 个 研究 课题 。 某 研究 机 构 获 取 了 网 上 交易 服务 质量 评价 的 数据 ,但 是 如 何 从 这 些 大 量 
的 数据 中 抽取 出 关于 网 上 交易 服务 质量 评价 的 知识 是 关键 所 在 。 本 案例 使 用 数据 挖掘 中 的 
属性 选取 技术 和 关联 分 析 技 术 , 利 用 Weka 软件 平台 ,成 功 得 到 了 影响 服务 质量 的 主要 因素 
以 及 可 能 导致 顾客 情绪 不 佳 的 关联 知识 ,为 网 上 交易 服务 质量 评价 研究 提供 了 定量 结果 。 


. 32 。 


实例 3 基于 Weka KnowledgFlow 模块 的 


大 学 生 专 业 方向 预测 分 析 
3.1 任务 描述 


随 着 专业 划分 越 来 越 细 ,大 学 生 在 专业 发 展 方向 上 有 了 更 多 的 选择 余地 。 例 如 ,计算 机 
专业 的 大 学 生 , 可 以 根据 自己 的 兴趣 爱好 选择 计算 机 软件 \ 人 硬件 .网 络 、 多 媒体 等 方向 。 每 个 
人 的 思维 方式 不 同 , 对 所 学 知识 的 偏爱 程度 和 理解 程度 不 同 ,在 不 同 发 展 方向 做 出 的 成 绩 也 
就 相去 甚 远 。 如 果 能 够 通过 科学 的 分 析 手 段 让 每 个 人 了 解 自己 的 特点 ,找到 最 佳 发 展 方向 ， 
或 有 意识 地 培养 某 方面 的 能 力 , 会 有 助 于 个 人 发 展 。 但 是 ,并 不 是 每 个 人 都 对 自己 的 兴趣 爱 
好 或 专长 有 充分 正确 的 了 解 ,有 时 甚至 存在 错误 的 认识 ,通过 客观 数据 帮助 学 生发 现 自己 的 
特长 ,就 是 本 例 所 要 解决 的 问题 。 

假设 学 生 在 某 些 科目 中 取得 的 成 绩 和 他 在 相关 专业 方向 中 的 能 力 有 着 密切 联系 ,是 否 
能 够 借助 学 生 在 各 门 基础 课 中 所 取得 的 成 绩 , 预 测 其 在 哪个 发 展 方向 上 将 会 有 较 好 的 表现 ， 
即 找 出 基础 课 成 绩 对 专业 课 成 绩 和 实践 成 绩 的 影响 规律 呢 ? 假设 有 这 样 的 可 能 ,就 可 以 在 
学 生 选 修 专业 课时 ,指导 他 们 根据 自己 基础 课 的 成 绩 情 况 决 定 选 修 哪 方面 的 专业 课 和 实践 
课 。 本 实例 的 任务 就 是 发 现 这 样 的 规律 。 

下 面 介绍 采用 关联 规则 挖掘 模型 实现 上 述 目的 的 过 程 ,包括 挖掘 模 型 选择 、 模 型 训练 、 
评估 和 应 用 。 


3.2 技术 原理 


3.2.1 数据 收集 和 准备 


在 本 实例 中 ,采用 了 某 大 学 计算 机 科学 与 技术 专业 历届 毕业 生 的 成 绩 信 息 。 由 于 各 届 
学 生 的 培养 方案 不 同 , 所 修 科目 有 所 不 同 ,并且 课程 中 包含 了 百分制 成 绩 (考试 ) 和 五 级 制 成 
绩 ( 考 查 ) 两 种 不 同 的 成 绩 形 式 , 个 别 学 生 由 于 没有 完成 学 业 等 原因 ,成 绩 记 录 不 完整 。 这 些 
因素 使 得 原始 数据 不 能 直接 用 于 数据 挖掘 ,必须 通过 预 处 理 方法 将 数据 处 理 成 为 "干净 ” 统 
一 的 挖掘 数据 源 。 


3.2.2 模型 选择 
该 问题 的 解决 采用 Weka 的 KnowledgFlow 模块 ,选择 其 中 的 Apriori 算法 对 数据 进行 分 析 。 


3.3 具体 实现 


3.3.1 数据 预 处 理 


数据 的 原始 形式 如 图 3-1 所 示 ,每 个 班级 的 成 绩 数据 保存 为 一 个 数据 库 表 。 
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cx 1982112932000505 计 0005 ”5 年 200020002 ”毛泽东 思想 概论 7 大 学 数学 (一 )B 756 ”大 学 语文 R 
X 1979111032000506 计 0005 5 年 200020002 ”毛泽东 思想 概论 ”80 AFA) T6 ”大 学 语文 dk 
3x 1981042532000507 计 0005 5 年 200020002 ”毛泽东 思想 概论 ”70 大 学 数学 (一 )B s AHER tt 
Æ 1977100432000508 计 0005 SfF 200020002 AFRESH 61 大 学 数学 (一 )B 8 大 学 语文 ”二 
男 1982011132000509 计 0005 5 年 200020002 ”毛泽东 思想 概论 ”54 大 字数 学 (一 )8 ”60 ”大 学 语文 中 
男 1980090132000510 计 0005 5 年 200020002 ”毛泽东 思想 概论 66 大 学 数学 (一 )B ”70 ”大 学 语文 ”中 
Xr 1982050332000511 计 0005 5 年 200020002 ”毛泽东 思想 概论 72 大 学 数学 (一 )B 34 大字 语 文良 
Xr 1981122632000512 计 0005 5 年 200020002 ”毛泽东 思想 概论 TT 大 学 数学 一 )B 90 AFEK B 


3-1 原始 数据 形式 


显然 ,原始 数据 不 能 够 直接 产生 挖掘 数据 源 , 需 要 采用 多 种 方法 进行 预 处 理 。 下 面 按 预 
处 理 的 执行 过 程 ,依次 介绍 所 用 的 预 处 理 方法 和 预 处 理 之 后 的 效果 。 

1. 处 理 空缺 值 

一 般 地 ,在 大 学 生成 绩 数据 库 中 ,产生 空缺 值 的 原因 是 由 于 学 生 中 途 终止 学 业 ,成 绩 管 
理 系统 仍然 保存 该 生 已 有 的 成 绩 数据 ,所 以 产生 了 一 些 只 有 部 分 课程 成 绩 的 记录 。 根 据 挖 
掘 目的 ,要 用 基础 课 成 绩 预 测 专业 课 成 绩 ,这样 不 完整 的 数据 对 挖掘 任务 是 没有 帮助 的 ,所 
以 对 这 类 空缺 数据 采用 删除 记录 的 方法 ,从 挖掘 数据 源 中 去 掉 对 应 的 整 条 记录 。 只 保留 正 
常 毕业 或 者 结业 的 学 生成 绩 数据 。 

2. 属性 选择 

成 绩 数 据 库 包 含 学 生 的 部 分 基本 信息 ,如 姓名 、 班 级 等 ,这 些 信 息 与 挖掘 目标 没有 直接 
关系 ,需要 去 除 以 减少 数据 的 维度 。 另 外 , 某 些 课程 由 于 其 授课 和 考核 方式 的 原因 ,可 能 会 
出 现 所 有 学 生 或 绝 大 多 数学 生 的 该 门 课程 成 绩 均 为 " 恨 ”( 也 许 是 “ 优 ?“ 中 ?或 "及 格 ”) ,这 样 
的 属性 不 仅 对 挖掘 没有 帮助 ,而 且 可 能 产生 虚假 的 规则 ,所 以 也 需要 从 属性 中 去 除 。 

3. 数据 的 规范 化 

如 果 挖 掘 算法 使 用 离散 的 数据 类 型 , 则 要 对 连续 型 成 绩 ( 百 分 制 成 绩 ) 进 行 离散 化 处 理 。 
由 于 各 种 各 样 的 原因 , 某 些 课程 的 成 绩 会 表现 出 偏 高 、 偏 低 、 分 散 或 集中 等 特点 。 例 如 ,同样 
ÆR ABCD 四 个 班 在 同一 个 学 期 开始 课程 X,A、B 班 由 教师 1 任课 ,C、D 班 由 教 
Wi 2 任课 ,四 个 班 的 成 绩 分 布 就 可 能 不 同 ,这 种 情况 下 ,衡量 一 个 同学 的 成 绩 好 坏 就 应 该 根 
据 每 个 学 生 所 在 的 班级 总 体 成 绩 分 布 的 前 提 下 进行 。 如 果 盲 目地 将 成 绩 数据 进行 离散 化 ， 
可 能 会 破坏 原始 数据 中 所 包含 的 信息 。 

采用 数据 规范 化 的 方法 ,将 所 有 成 绩 数据 规范 到 某 一 个 设 定 的 范围 中 (如 60 一 100) ,对 
所 有 成 绩 的 离散 化 都 在 这 个 统一 的 成 绩 范围 内 进行 ,可 以 得 到 更 客观 的 离散 化 结果 。 

设 某 班级 某 课程 的 原始 成 绩 分 布 在 MinI 和 MaxI 之 间 , 采 用 线性 变换 式 (3-1) 映 射 到 
60—100 之 间 : 
|J V-—Minl 

Maxl — MinI 

其 中 ,V 是 原始 数据 值 ;V 是 规范 化 之 后 的 数据 值 。 

规范 化 结果 是 使 得 所 有 数据 表 ( 对 应 不 同班 级 的 成 绩 数据 ) 中 的 连续 型 成 绩 数 据 都 映射 
到 了 一 个 统一 的 范围 中 。 

4. 属性 概 化 

由 于 每 位 学 生 在 大 学 期 间 要 学 习 几 十 门 课程 ,如 果 每 门 课程 作为 一 个 属性 ,算法 中 处 理 
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v’ (100 — 60) + 60 (3-1) 


的 属性 较 多 ,同时 得 出 的 规则 也 比较 复杂 ,为 了 简化 计算 过 程 和 结果 表示 ,对 属性 进行 概 化 。 
例如 ,将 学 生 各 个 学 期 的 数学 课 合并 为 一 个 属性 ,成 绩 取 平均 ;物理 .英语 政治 等 课程 也 做 
同样 处 理 。 还 可 以 进一步 对 硬件 基础 课 , 如 “模拟 电路 ”、“ 数 字 电 路 ”进行 合并 ;对 软件 类 基 
础 课 , 如 “算法 与 程序 设计 ”“ 数 据 结 构 ” 等 进行 合并 。 专 业 课 也 可 以 按照 专业 方向 合并 ,如 
“计算 机 体系 结构 “组 成 原理 ”等 合并 为 硬件 。 合 并 之 后 ,大 大 减少 了 需要 处 理 的 属性 , 挖 
掘 结果 也 能 够 得 到 简化 。 

5. 数据 离散 化 

原始 的 Apriori 算法 只 能 处 理 布尔 型 数据 , Weka 中 的 Apriori 模型 则 可 以 处 理 离散 型 
数据 。 本 例 中 ,成 绩 数据 有 两 种 形式 ,考试 课 成 绩 为 百分制 ,考查 课 成 绩 按 “ 优 "“ 良 ”“ 中 ”、 
“及 格 ” 和 “不 及 格 ”5 级 记录 ,需要 将 数据 进行 离散 化 处 理 。 

根据 研究 目标 ,具体 实现 中 把 各 个 成 绩 值 都 离散 化 到 两 个 分 数 段 : 该 科目 成 绩 在 前 
1/3 的 , 记 为 True, 表 示 该 课程 学 习 效果 较 好 ,后 2/3 记 为 False, 表 示 该 课程 学 得 不 好 。 另 
外 ,根据 Weka 的 Apriori 模型 的 要 求 , 属 性 值 False 应 该 用 NULL 表示 。 在 分 析 中 ,NULL 
表示 该 属性 没有 出 现 。 

预 处 理 之 后 得 到 的 挖掘 数据 源 格式 如 图 3-2 所 示 ,可 从 本 书 提供 的 SQL Server 数据 文 
件 scoreMining. mdf 获得 ,使 用 SQL Server 的 数据 库 附加 功能 可 以 重建 该 数据 库 , 其 中 只 
有 一 个 数据 表 scoreMining。 


[eng math sports poltica| _ phisical ， philosophy introduction _algoriths discrete | datastructure electronic os DB hu. software 
AU MAL True NULL NULL NULL True True ML Aut AU NULL True AUEL True 
p True AU NL AUL AU AU True AU True AU NULL Au AUL NULL 
True True AU, NL NULL True True True UL MEL MLL NULL AU NULL NUEL 
True True AU MULL Mti AU ML ML Aut True AU MULL MUE ME MULE 
True MUEL AUEL ML NULL ML AUL Aut NULL AU True. AUL True AU MRL 
AU ML ONUL NULL AU True AU AU AU AU AU True Tre AU AU 
AU ML MAL True True True ML True True True True True True True True 
ML MUL True NULL True MULL NULL MLL NULL MEL NULL NULL Aut MUL NUEL 
NUL NUEL True AUL ML True nuti Nut Aut AU AUL AUL AU True True 
AU AUGE AUEL True NULL NULL AU True True True True True True True True 
Nu NULL True True NULL True True True NULL True True AUL True AUEL True 
AU NULL ONU ML Muti True True Aut True Au NL AUL AU ME MRE 
AÙEL True True NULL True NULL AU AUC ML AU True. True AULL True AUL 
AU NU NE True True True True Aut AU True True True True AU True 
Mti NULL ANULO NULL Nut True True True Nut True AU MAL MN MRE NULL 
True Ml True True NULL Aut True ML True True AU AU True AU ACE 
True Mti AUE AUL AUL MAL Aut AU Aut Aut AU NULL AU NUEL True 
True ML AUEL True. True True MLL NULL NULL AU AUL MRL AULE True MRL 
AU ML NOL True NULL True True True MULL True True AUL True MAL True 
Att True AUL True True True True True AUL AuUL True True True True True 
AU ANULO MEL NULL AU NULL AU True NULL True MAL AUL AU NULL. NULL 
AULL ME NULL Mati NRL MULL MRL True True MRL True NEL True AUL True 


图 3-2 数据 离散 化 结果 


6. 生成 挖掘 数据 文件 
根据 附录 B 所 述 的 数据 转换 方法 将 数据 从 SQL Server 导出 为 CSV 文件 ,然后 再 转换 
为 ARFF 文件 ,作为 挖掘 数 据 源 。 


3.3.2 建立 和 使 用 知识 流 


KnowledgeFlow 模块 是 一 个 图 形 界面 环境 ,除了 具有 Explorer 的 所 有 功能 之 外 ,还 提供 一 
些 Explorer 不 具有 的 功能 ,如 增 量 处 理 。 用 户 可 以 从 每 个 工具 条 中 选择 需要 的 组 件 放置 在 画 
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布 上 ,并 且 把 他 们 连接 起 来 形成 一 个 处 理 和 分 析 数 据 的 “知识 流 ”, 在 KnowledgeFlow 中 可 以 选 
择 使 用 Weka 中 提供 的 所 有 核心 组 件 。 

在 KnowledgeFlow 模块 中 ,可 以 对 数据 进行 批量 处 理 或 增 量 处 理 (Explorer 模块 只 能 对 数据 
进行 批量 处 理 )。 目 前 在 Weka 中 集成 了 5 种 支持 增 量 处 理 的 分 类 器 : NaiveBayesUpdateable、 
IB1 IBk、LWR(locally weighted regression) 和 RacedIncrementalLogitBoost 。 

KnowledgeFlow 模块 具有 以 下 特点 : 
直观 的 数据 流 布局 风格 ; 

处 理 批量 或 增 量 数据 ; 

以 线程 方式 实现 并 行 地 处 理 多 分 支 或 多 数据 流 ; 
将 各 种 过 滤器 链接 在 一 起 ; 

可 以 观察 交叉 验证 中 分 类 结果 的 情况 ; 

对 增 量 分 类 器 的 处 理 过 程 可 视 化 。 

下 面 用 知识 流 模块 解决 上 面 的 问题 。 创 建 一 个 知识 流 ,采用 批量 方式 装 和 人 ARFF X 
件 , 采 用 Apriori 算法 执行 数据 挖掘 。 

(D 运行 WEKA 的 主 程序 ,出 现 GUI 后 , 单 击 进入 KnowledgeFlow 模块 ,KnowledgeFlow 
模块 的 主 界面 如 图 3-3 所 示 。 


Weka KnowledgeFlow Environment 


& [G5 


Mewer Char 


|.. Welcome to the Weka Knowledge Flow 


图 3-3 KnowledgeFlow 模块 主 界面 


KnowledgeFlow 模块 包含 的 所 有 组 件 都 可 在 此 页 面 上 获得 ,它们 被 分 类 安排 在 相应 的 
面板 上 上。 包括 : 

DataSources: 包括 了 Weka 的 所 有 装载 器 ,提供 各 种 类 型 文件 的 装载 功能 。 

DataSinks: 包括 了 Weka 的 所 有 保存 功能 ,可 以 对 各 种 类 型 文件 进行 保存 。 

Filters: 包括 了 Weka 的 所 有 过 滤器 ,支持 所 有 的 数据 预 处 理 。 

Classifiers: 包括 了 Weka 的 所 有 分 类 器 ,供用 户 选 择 分 类 算法 。 

Clusterers: 包括 了 Weka 的 所 有 聚 类 算法 ,供用 户 选 择 聚 类 算法 。 


Associations: 包括 了 Weka 的 所 有 关联 规则 算法 ,供用 户 选择 关联 规则 算法 。 
. 36 * 


Evaluation; 提供 数据 准备 功能 ,包括 TrainingSetMaker, 将 一 个 数据 集 设 置 为 训练 集 ; 
TestSetMaker 将 一 个 数据 集 设 置 为 测试 集 ;CrossValidationFoldMaker 按 折 划分 数据 集 、 
训练 集 或 测试 集 。TrainTestSplitMaker 把 一 个 数据 集 划 分 成 训练 集 和 测试 集 ; ClassAssigner 
为 数据 集 、 训练 集 或 测试 集 分 配 类 属性 ;ClassValuePicker 规定 “ 正 类 ”的 取 值 ; 
ClassifierPerformanceEvaluator 评估 批量 分 类 器 的 性 能 ; IncrementalClassifierEvaluator 评估 增 
量 分 类 器 的 性 能 ;ClustererPerformanceEvaluator 评估 批量 聚 类 的 性 能 ; PredictionA ppender 为 
一 个 测试 数据 集 添加 分 类 预测 。 

Visualization; 功能 与 Explorer 的 可 视 化 相同 。DataVisualizer 以 单一 的 二 维 散 点 图 
形式 显示 可 视 化 数据 ;ScatterPlotMatrix 用 多 个 小 的 散 点 图 形成 的 矩阵 显示 可 视 化 数据 ; 
AttributeSummarizer 以 矩阵 形式 显示 属性 直方 图 ,每 个 直方 图 代表 一 个 属性 特征 ; 
ModelPerformanceChart 显示 可 视 化 的 闵 值 曲线 ;TextViewer 显示 文本 数据 ,如 文本 形式 
的 数据 集 或 分 类 性 能 统计 信息 等 ;GraphViewer 显示 可 视 化 的 树 形 模型 ;StripChart 滚动 显 
示 数 据 , 用 于 观察 增 量 分 类 器 的 执行 性 能 。 

(2) 单 击 DataSources 标签 进入 数据 源 选择 面板 ,从 工具 栏 中 选择 ArffLoader 项 ,此 时 
鼠标 的 光标 将 变 成 一 个 十 字形 状 。 

1E Knowledge Flow Layout 区 域 的 任何 位 置 单 击 ,就 会 出 现 一 个 ArffLoader 图 标 , 可 
以 用 鼠标 拖 忠 这 个 图 标 , 把 它 摆 放 在 合适 的 位 置 ,如 图 3-4 所 示 。 


5 | DataSinks | Filters | Classifiers| Clusterers| Associations| Evaluati 


sls 


Tbs 
Loader 


. Status 
|0... Welcome to the Weka Knowledge Flow 


图 3-4 拖 电 ArffLoader 图 标 


右 击 此 数据 源 图 标 ,将 会 弹出 的 快捷 菜单 ,选择 Configure 菜单 项 ,打开 查找 文件 对 话 
TE ,选择 要 装 和 的 ARFF 文件 ,如 scoreMining. arff。 也 可 以 在 数据 源 图 标 上 双击 ,打开 查 
找 文件 对 话 框 ,选择 要 装 入 的 ARFF 文件 ,此 处 选择 scoreMining. arff。 

(3) 选择 Associations 标签 打开 分 类 器 面板 ,在 工具 栏 的 左边 找到 Apriori 图 标 ,并 将 
其 放置 在 布局 中 。 

右 击 此 数据 源 图 标 , 从 弹出 的 快捷 菜单 中 选择 Data Set 菜单 项 ,此 时 将 会 出 现 一 条 从 
ArffLoader 图 标 出 发 的 红色 箭头 ,用 鼠标 拖 忠 箭头 ,使 其 指向 Apriori 图 标 ,然后 单 击 “ 确 
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定 ” 按 钮 ,即将 Apriori 图 标的 数据 源 设 置 为 ArffLoader 图 标 所 装 入 的 数据 集 。 

在 默认 情况 下 ,挖掘 结果 只 显示 最 前 面 的 10 条 规则 ,如 果 想 看 到 更 多 规则 ,可 以 对 默认 
属性 设置 进行 修改 。 方 法 是 使 用 Apriori 图 标的 右键 菜单 ,选择 “configure” 菜 单项 ,打开 参 
数 配 置 对 话 框 ,修改 numRules 的 值 ,如 20, 则 能 够 看 到 更 多 的 挖掘 结果 。 

(4) 从 Visualization 标签 进入 可 视 化 面板 ,向 布局 中 放置 一 个 TextViewer 组 件 , 从 
Apriori 图 标的 右键 菜单 选择 text 选项 ,并 指向 TextViewer 图 标 , 将 这 两 个 组 件 联系 
起 来 。 

(5) 执行 知识 流 。 从 ArffLoader 图 标的 右键 菜单 选择 Start loading 选项 ,可 以 看 到 布 
局 中 某 些 图 标 开始 显示 动画 效果 ,并 且 可 以 在 界面 底部 的 状态 栏 和 Log 中 看 到 处 理 信息 。 
根据 数据 集 的 大 小 不 同和 数据 密集 程度 不 同 , 执 行 时 间 也 不 同 。 以 上 步骤 完成 之 后 的 结果 
如 图 3-5 所 示 。 


Weka EnowledgeFlow Environment 


|... Welcome to the Weka Knowledge Flow 
ini shed. 


p PF 
FW10-T0-C0.9-DO....|- finished 


图 3-5 处 理 完成 


(6) 查看 处 理 结 果 。 可 以 通过 TextViewer 组 件 的 Show Results 菜单 实现 ,如 图 3-6 
所 示 。 

其 中 显示 了 所 用 算法 .配置 参数 .所 用 数据 集 , 以 及 处 理 的 各 种 性 能 数据 。 因 为 参数 设 
置 中 默认 显示 前 10 条 规则 ,所 以 这 里 只 有 10 条 结果 。 

规则 以 以 下 形式 输出 : 


规则 编号 .规则 前 项 支持 度 ==> 规 则 后 项 支持 度 置信 和 度 


根据 课程 开设 的 前 后 关系 ,应 该 是 根据 公共 课 成 绩 预测 专业 基础 课 成 绩 等 ,根据 基础 课 
成 绩 预 测 专 业 方向 ,所 以 在 结果 中 ,更 关心 蕴含 式 右 项 为 hardware 或 software 的 规则 ,经 
过 筛选 ,得 到 一 些 规则 。 
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P Tert Viewer 
Result list Text 
=== Associator model =: 


Scheme: — Apriori 
Relation: scoreminingl 


Apriori 


Minimum support: 0.1 (17 instances) 
Minimum metric «confidence»: 0.9 
Number of cycles performed: 18 


Generated sets of large itemsets: 
Size of set of large itemsets L(1): 
Size of set of large itemsets L(2): 
Size of set of large itemsets L(3): 
Size of set of large itemsets L(4): 
Size of set of large itemsets L(S): 
Best rules found: 


. phisicaleTrue discrete-True hardware-True 19 ==> os-True 19 conf: (1) 

. discretesTrue datastructure-True hardware-True 19 ==> os-True 19  conf:(1) 

. discrete-True datastructure-True software-True 17 ==> os-True 17 conf: (1) 

. phisicaleTrue discrete-True datastructure-True hardware-True 17 ==> os-True 17 conf: (1) 
. phisicaleTrue introduction-True software-True 20 ==> electronic-True 19 conf: (0.95) 

. political-True phisical-True introduction-True 19 ==> electronic-True 18 conf: (0.95) 

. philosophysTrue os-True hardvare-True 19 ==> political-True 18  conf:(0.95) 

. phisicaleTrue introduction-True os-True 19 ==> electronic-True 18 conf: (0.95) 

. phisicaleTrue datastructure-True hardware=True 19 ==> os-True 18 conf: (0.95) 

. phisicaleTrue datastructure-True software-True 19 ==> os-True 18  conf:(0.95) 


$6 结果 显示 


6. political- True phisical- True introduction- True 19--» electronic- True 18 conf: 
(0.95) 

16. political- True datastructure- True electronic- True 21-- 5» DB- True 19 conf: (0.9) 
17 phisical- True introduction- True electronic- True 21== > software- True 19 conf: 
(0.9) 

20. phisical-True discrete- True datastructure- True 21--»0s- True 19 conf: (0.9) 
22 phisical-True discrete- True os-True 21--»^hardware-True 19 conf: (0.9) 

23 discrete- True datastructure- True os- True 21--»hardware-True 19 conf: (0.9) 


26. discrete- True datastructure- True electronic- True 20--»0s- True 18 conf: (0.9) 


其 中 规则 17 所 表达 的 是 当 物 理 、 计 算 机 导论 和 电工 学 成 绩优 秀 时 ,软件 方向 的 课程 会 
得 到 好 成 绩 ; 规 则 22 所 表达 的 是 当 物 理 、 离 散 数学 、 操 作 系 统 成 绩优 秀 时 ,硬件 方向 的 课程 
会 得 到 好 成 绩 ;规则 23 所 表达 的 是 当 离散 数学 .数据 结构 .操作 系 统 成 绩优 秀 时 ,硬件 方向 
的 课程 会 得 到 好 成 绩 。 

这 些 规则 的 可 用 性 ,还 要 依据 数据 预 处 理 的 方法 ,离散 化 的 取 值 等 等 有 所 不 同 。 读 者 可 
以 对 本 书 提供 的 原始 数据 用 不 同 的 预 处 理 方法 进行 处 理 , 观 察 挖掘 结果 的 不 同 。 

操作 完毕 ,直接 点 击 右 上 角 的 图 标 “X” 关 闭 窗口 即 可 。 


3.4 案例 小 结 


在 本 实例 中 ,首先 根据 数据 特点 和 挖掘 模型 要 求 对 获得 的 电子 数据 进行 了 预 处理 ,然后 
选择 Weka 的 KnowledgeFlow 模块 建立 了 一 个 知识 流 , 其 中 挖掘 模型 选择 了 关联 规则 分 析 
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的 Apriori 模型 ,产生 了 挖掘 结果 ,并 根据 挖掘 目标 对 挖掘 结果 进行 了 筛选 和 解读 ,完整 演 
示 了 数据 挖掘 的 全 部 过 程 。 当 然 ,还 应 该 进行 调查 分 析 确 定 规则 的 可 用 性 ,这 项 工作 超出 了 
本 书 的 范围 ,在 此 不 再 进行 讨论 。 

读者 可 以 从 本 章 获 得 的 知识 有 两 个 方面 ,一 是 了 解 关 联 规 则 分 析 的 过 程 ; 二 是 学 习 
Weka 的 KnowledgeFlow 模块 的 使 用 方法 。 
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实例 4 基于 决策 树 方法 的 网 球 运动 天 气 状 况 评价 分 析 


4.1 任务 描述 
搜集 到 14 天 的 天 气 情况 如 表 4-1 所 示 , 用 outlook ,temperature,humidity 和 wind 四 个 
条 件 属性 来 描述 。 其 中 ,属性 outlook 为 离散 型 属性 , 取 表 4-1 天 气 情况 数据 


值 分 别 为 sunny, rainy overcast; Bi E windy 为 离散 型 属 IE rr 区 
TE. fi^ 9| 2j FALSE, TRUE; 属性 temperature 和 NU SEDENS Der] 
humidity 为 数值 型 属性 。 最 后 一 个 属性 play 为 决策 属 
性 ,属性 值 为 yes 是 说 这 天 适合 打 网 球 ,属性 值 为 no 是 
说 这 天 不 适合 打 网 球 。 

(1) 试 根据 这 些 数 据 建 立 评价 是 否 适合 打 网 球 的 评 
价 规 则 。 

(2) 若 给 定 一 天 的 天 气 为 overcast,66.0,78,FALSE， 
问 这 天 是 否 适合 打 网 球 ? 


4.2 技术 原理 


4.2.1 决策 树 的 概念 


决策 树 方法 是 最 受 欢 迎 的 数据 挖掘 技术 之 一 ,主要 用 于 分 类 和 预测 。 决 策 树 学 习 是 以 
样本 为 基础 的 归纳 学 习 方 法 ,将 决策 树 转换 成 分 类 规则 比较 容易 。 决 策 树 的 表现 形式 类 似 
于 流程 图 的 树 结构 ,在 决策 树 的 内 部 结 点 进行 属性 测试 ,并 根据 属性 值 判断 由 该 结 点 引出 的 
分 支 ,在 叶 结 点 得 到 结论 。 图 4-1 所 示 为 一 个 决策 树 实例 。 


天 气 


湿度 P X 
Hi 正常 有 风 无 风 
N P "A E P 
图 4-1 决策 树 实例 
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4.2.2 信息 论 的 基本 概念 


消息 (符号 ) UiG 一 1,2,…,9) 的 发 生 概率 PU) 组 成 信 源 数学 模型 (样本 空间 或 概率 
空间 ), 即 


[U, P] = | s FÉ. | (4-1) 
PU) PU) … P(U,) 
ed 定义 为 : 
HQ» = ÈP U; )logi 三 一 PU, 三 =Z PU, )logP (U;) (4-2) 
Jci Bali e A era 首 接收 端 接收 到 输出 符号 V-Vjl. 关于 输入 符号 U; 的 信息 度量 , 即 
H(U | V) = ZPV 2,PQU; | Vlog gay ry (4-3) 


4.2.3 ID3 建树 算法 


CD 对 当前 例子 集合 ,计算 各 特征 的 互信 息 。 

(2) 选择 互信 息 最 大 的 特征 A 。 

G) 把 在 A 处 取 值 相同 的 例子 归于 同一 子 集 , A; 取 几 个 值 就 得 几 个 子 集 。 
(4) 对 既 含 正 例 又 含 反例 的 子 集 ,递归 调用 建树 算法 。 

(5) 若 子 集 仅 含 正 例 或 反例 ,对 应 分 枝 上 标 已 或 N ,返回 调用 处 。 


4.3 具体 实现 


具体 说 明 : 
CD 选择 “开始 ”一 “所 有 程序 ”Weka3. 6. 5— Weka3. 6 选项 ,如 图 4-2 所 示 。 


£t Offic 
,号 Internet Explored Qj Windows Install Clean Up 
(f) MathType 5 

D 其 本 软件 


所 有 程序 D 


£t Silverlight 
ft SQL Server 2005 


4-2 打开 Weka 软件 


(2) 在 打开 的 文件 中 , 单 击 Explorer 按钮 ,如 图 4-3 所 示 。 


($i Weka GUI Chooser 
rogram Visualization Tools Help 


Applications 
WEKA 
The University 
b of Waikato i 
x ed 
owl edgel 


Waikato Environment for Enowledre Analysis 
5 


图 4-3 打开 Explorer 应 用 
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(3) 单 击 Open file 按钮 ,选择 要 打开 的 文件 weather. arff ,并 单 击 “打开 ”按钮 ,如 图 4-4 
所 示 。 


[了 Weka Explorer 


[_ Choose 


Current relation |Q Booki. ertt 
Relation: None 加 booue «ccc 
Instances: None 


Attributes 


Al 


weather arff 


Arff data files (# arff) 


Status 
Welcome to the Weka Explorer 


图 4-4 打开 数据 文件 


(4) 在 如 图 4-5 所 示 的 界面 中 ,可 以 知道 weather 数据 集中 共有 14 个 实例 ,每 个 实例 有 
5 个 属性 。 选 中 某 个 属性 ,可 以 查看 14 个 实例 关于 这 个 属性 的 属性 值 的 最 小 值 . 最 大 值 . 均 
值 和 标准 差 等 信息 。 然 后 单 击 Classify 标签 栏 ,并 单 击 Choose 按钮 。 


(Ti¥eka Explorer 


Preprocess | Classi £y | Cluster | Associate Select attributes Visualize 


Open file [open w. Open DB. [Generate 


Filter 
[ae Jone 
Current relation 


Relation: weather Name: temperature 
Instances: 14 Attributes: 5 Missing: O (0X) 


Apply 
Selected attribute 


Type: Numeric 
Distinct: 12 Unique: 10 (T1) 


Statistic Value 


Attributes 


Minimum 84 


.o [Mean 
Stdlev 


Class: play (Nom) v Visualize Al 


图 4-5 查看 数据 特征 
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(5) 如 图 4-6 所 示 ,选择 J48 分 类 器 ,并 单 击 Close 按钮 。 


ka Explorer DER 


| Preprocess| Classify | Cluster | Associate Select attributes | Visualize! 


Classifier 
|) weka 
BC elassifiers 
EO bayes ifier output 
O functions 
HO lazy 
HO meta 
[IL 
HO mise 
O rues 
BD trees 
* MTree 
© Bree 
全 DecisionStump 


9 RandonForest 
* RandonTree 
© REPTree 

9 SimpleCart 


Hilter... |[ Benove filter 


Status 
OK 


图 4-6 选择 决策 树 方法 
(6) 如 图 4-7 所 示 ,建立 Bookl. arff 文件 。 


文件 转换 — Bookl.arff 
请 选择 使 文档 可 读 的 编码 。 
文本 编码 : 


d Ows-sq) OXHeBO: 7 


maw: 


ürelation weather 


Battribute outlook [sunny, overcast, rainy] 
attribute temperature real 

Battribute humidity real 

Gattribute windy [TRUE, FALSE] 


Battribute play [yes, no] 


data 
overcast, 66, 78, FALSE, ? 


图 4-7 建立 测试 文件 


(7) 选中 Test options 选项 中 的 Supplied test set 单 选 按钮 , 单 击 Sec 按钮 ,如 图 4-8 
所 示 。 

(8) 选中 Bookl. arff 文件 ,并 单 击 “ 打 开 ” 按 钮 ,如 图 4-9 所 示 。 

(9) 单 击 Start 按钮 , Weka 软件 显示 运行 结果 ,如 图 4-10 所 示 。 
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| Select attributes | Visualize| 


| Preprocess| Classify | Cluster | Associat 


Classifier 
[mes ]zeo -c 0.25 nz E Test Instan 


Test options 
O Use training set 
© Supplied test set Set- 
OCrossvalidation F 


Pilis fio 


O Percentage split x [es 


Qon) play 


Start Stop 


Result list (right-click for options) 


Status 


4-8 设置 测试 选项 


[Bookl. arff 
网 上 邻居 — 文件 类 型 ;href data files (s arff) 


图 4-9 选 定 测试 文件 


leka Explorer 
Preprocess| Classify | Cluster | Associate] Select attributes | Visualize| 


Classifier 
Chose ]J48 -C 0.25 -M 2 


Test options Classifier output 


O Vse training set Time taken to build model: 0.02seconds 


© Supplied test set 
=== Evaluation on test set === 
O Cross-validation === Summary === 


O Percentage split 
Total Number of Instances 


se Ignored Class Unknown Instances 


=== Detailed Accuracy By Class === 


| Won) play 


Start p TP Rate FP Rate Precision Recall F-Measure ROC i 
0 0 o 0 ? 


Result list (right-click for options) 0 o o 
Weighted Avg. NaN NaN 


=== Confusion Matrix === 


ab <-- classified as 
00 | a= yes 
00 |b= no 


图 4-10 运行 决策 树 算法 


(10) Æ Result list 中 刚才 出 现 的 那 一 项 ,在 弹出 的 菜单 中 选择 Visualize tree 项 ,如 
图 4-11 所 示 。 


(f) Feka Explorer DER 


Classifier 
Choose |J48 -C 0.25 -M 2 


Test options 


O Use training set Time taken to build model: 0.02seconds 


Classifier output 


2 


© Supplied test set Set 
ECHTE O === Evaluation on test set === 


O Cross-validation i === Summary === 


O Percentage split 


—-—— [Total Number of Instances 0 
More options. Ignored Class Unknown Instances 1 


=== Detailed Accuracy By Class === 


(on) play 


Start TP Rate FP Rate Precision Recall F-Measure ROC i 
0 0 0 0 0 ? 
Result list (right-click for options) 0 0 0 0 0 E 
Y WaN NaN NaN NaN NaN NaN 
iew in main window 
View in separate window leri eun 


Save result buffer 


Delete result buffer Bified as 


Load model 
Save model 


Re-evaluate model on current test set 


Visualize classifier errors 
Visualize tree 


Status 
OK 


Visualize margin curve 
Log x0 
Visualize threshold curve , E 


图 4-11 选择 可 视 化 决策 树 选项 
QD 在 新 窗口 中 ,可 以 看 到 图 形 模式 的 决策 树 , 如 图 4-12 所 示 。 


El teka Classifier Tree Visualizer: 21:33:10 - tr... EBX) 


Tree View 


-sunny =overcast = rainy 


wn 


=TRUE =FALSE 


<=75 > 


ma m xs nm 


图 4-12 查看 决策 树 


(12) 右 击 Result list 中 刚才 出 现 的 那 一 项 ,在 弹出 的 菜单 中 选择 Visualize classifier 
error 项 ,如 图 4-13 所 示 。 

(13) 在 弹出 的 对 话 框 中 , 单 击 Save 按钮 ,并 保存 为 文件 Book2. arff, 如 图 4-14 和 图 4-15 
所 示 。 

(14) 打开 文件 Book2. arff, 可知 若 给 定 一 天 的 天 气 为 overcast,66.0,78,FALSE, 则 预 
测 值 为 yes, 所 以 这 天 适合 打 网 球 , 如 图 4-16 ros - 
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Preprocess| Classify | Cluster Associate| Select attributes | Visualize! — 


Classifier 


Choose JJ48 -c 0.25 0 2 


Test options Classifier output 


O Use training set Time taken to build model: 0.02seconds 


© Supplied test set 
Evaluation on test set === 
O Cross-validation Summary 
O Percentage split 
Total Number of Instances 

Ignored Class Unknown Instances 


Detailed Accuracy By Class 


TP Rate FP Rate Precision Recall 
0 
0 

Weighted Avg. NaN 


Result list (right-click for options) 
[21:38:54 - rules.Zerok 
View in main window Mixer 
View in separate window 
Save result buffer 
Delete result buffer 


assified as 
E 

Load model 

Save model 


Recevaluste model on current test set 


-Measure 
0 
0 
NaN 


Visualize tree 


Status 


oK 
Visualize margin curve 


图 4-13 选择 Visualize classifier errors 选项 


Plot:weather predicted 


Class colour 


图 4-14 查看 可 视 化 分 类 结果 


EEES a 2 caa 


(O Booki. arff 
(O eather arff 


[Boo 


网 上 邻居 。 文件 类 型 [Arff data files 


图 4-15 将 分 类 结果 保存 于 文件 
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4-16 查看 预测 结果 


4.4 案例 小 结 


决策 树 方法 是 最 受 欢 迎 的 数据 挖掘 技术 之 一 ,主要 用 于 分 类 和 预测 。 决 策 树 学 习 是 以 
样本 为 基础 的 归纳 学 习 方 法 ,利用 信息 论 原理 来 建立 决策 树 模 型 。 决 策 树 方法 可 以 高 度 自 
动 化 地 建立 易于 为 用 户 所 理解 的 模型 ,实用 效果 较 好 。 本 案例 利用 Weka 软件 自 带 的 网 球 
运动 天 气 状况 数据 ,采用 分 类 技术 中 的 J48 决策 树 构建 方法 ,得 到 了 直观 的 决策 树 模型 dE 
此 基础 上 ,利用 得 到 的 决策 树 模 型 ,可 以 预测 给 定 的 某 种 天 气 状况 是 否 适合 进行 网 球 运动 ， 
取得 了 满意 的 结果 。 
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实例 5 基于 Weka Experimenter 模块 的 
人 力 资 源 管理 挖掘 模型 选择 分 析 


5.1 任务 描述 


人 力 资源 管理 的 目的 在 于 结合 企 事业 单位 发 展 的 需要 ,获得 企 事业 单位 所 需要 的 员工 ， 
并 且 创 造 条 件 以 保证 员工 能 完全 投入 工作 ,充分 发 挥 他 们 的 潜能 ,所 以 人 力 资源 管理 对 企 事 
业 单 位 的 生存 发 展 起 着 至 关 重 要 的 作用 。 

目前 ,中 国 高 校 的 人 力 资源 结构 基本 上 由 5 个 部 分 组 成 : 教学 科研 人 员 、 管 理 人 员 、 服 
务 人 员 ` 离 退休 人 员 和 附属 部 门 的 工作 人 员 。 利 用 数据 挖掘 技术 对 高 校 人 力 资源 数据 源 中 
的 数据 进行 分 析 , 寻 找 其 中 有 价值 的 关系 和 规律 ,对 管理 人 员 职 位 的 安排 ,教师 聘用 、 培 养 、 
选拔 等 实际 工作 能 够 起 到 一 定 程 度 的 辅助 作用 ,进而 提供 决策 支持 。 

解决 同一 个 应 用 问题 不 仅 可 以 采用 不 同 的 数据 挖掘 类 型 ,如 分 类 、 聚 类 .关联 规则 等 , 即 
使 确定 了 挖掘 类 型 之 后 ,也 有 多 种 挖掘 模型 可 供 选择 。Weka 的 Experimenter 模块 专门 设 
计 用 来 评估 各 种 方法 及 不 同 参数 设置 情况 下 的 挖掘 结果 ,可 以 就 某 个 数据 集 在 多 个 挖掘 模 
型 之 间 进 行 比较 。 本 实例 使 用 人 力 资源 数据 进行 数据 挖掘, 用 Experimenter 模块 对 两 种 候 
选 算法 进行 比较 ,决定 最 终 选用 的 挖掘 模型 (并 不 具体 实现 挖掘 任务 )。 读 者 可 以 采用 本 书 
提供 的 数据 ,用 Explorer 模块 或 KnowledgFlovw 模块 完成 挖掘 任务 。 


5.2 技术 原理 


5.2.1 挖掘 类 型 确定 


本 问题 拟 根据 高 校 职工 的 各 项 背景 信息 ,预测 他 们 在 不 同 工 作 岗位 上 可 能 做 出 的 成 绩 ， 
其 中 对 成 绩 的 评价 以 考核 成 绩 为 参考 ,所 以 控 据 任务 是 对 职工 进行 分 类 。 本 实例 的 主要 任 
务 是 在 确定 了 采用 分 类 方法 解决 问题 之 后 ,对 Weka 的 Experimenter 模块 提供 的 分 类 模型 
进行 比较 ,确定 哪 种 模型 最 适合 此 问题 。 


5.2.2 数据 收集 和 准备 


数据 来 源 于 不 同 院 校 的 人 力 资源 数据 库 , 而 且 来 自 多 个 部 门 。 例 如 , 教 职 工 基本 情况 数 
据 来 自 人 力 资源 部 门 , 科 研 成 果 来 自 科研 管理 部 门 , 教 学 考核 来 自 教务 部 门 等 。 数 据 来 源 复 
杂 , 在 放 入 挖掘 库 之 前 ,要 进行 整理 , 即 对 数据 进行 预 处 理 。 

用 预 处 理 过 的 数据 建成 挖 据 库 ,数据 挖 据 库 中 的 数据 不 同 于 原始 数据 ,是 符合 数据 挖掘 
要 求 的 数据 。 在 本 实例 中 ,数据 源 是 经 过 整理 的 某 高 等 院 校 教 职 工人 力 资 源 数据 库 。 
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5.3.1 数据 预 处 理 


1. 数据 集成 

获得 的 样本 数据 有 的 存储 在 Microsoft SQL Server 2000 数据 库 中 ,还 有 的 存储 在 
Microsoft Access 2000 数据 库 中 ,需要 将 这 些 数据 集成 到 一 起 ,并 且 要 使 那些 本 来 存在 冲突 
和 不 一 致 的 数据 一 致 化 。 不 同 的 数据 库 的 数据 定义 通常 都 存在 很 大 的 差异 ,如 同样 表示 教 
职工 的 年 龄 信息 ,有 的 可 能 使 用 整数 表示 实际 年 龄 ,有 的 可 能 使 用 出 生年 月 。 这 都 需要 使 用 
数据 集成 的 相关 方法 进行 处 理 。 

2. 选择 数据 

应 该 去 掉 那 些 肯 定 和 挖掘 无 关 的 数据 ,如 姓名 ,只 保留 本 次 数据 挖掘 所 需要 的 数据 。 注 
意 , 必 须 保留 类 似 “ 职 工 编号 ”这 样 的 主键 信息 。 

3. 数据 清理 

由 于 各 种 各 样 的 数据 质量 问题 ,数据 中 可 能 包含 了 不 正确 的 值 . 空 缺 值 。 而 且 从 多 个 不 
同 的 源 集成 数据 时 ,不 同 数据 源 之 间 的 数据 存在 不 一 致 。 

在 人 力 资 源 数据 库 中 ,空缺 值 除 了 因 录 入 员 操 作 失 误 没 有 输入 以 外 ,一 般 都 代表 "无 ”， 
如 无 职务 或 无 党 派 等 。 对 于 操作 失误 导致 的 空缺 值 , 通 过 各 字段 间 关 系 的 推断 ,或 是 询问 数 
据 来 源 单位 核实 可 以 填充 完整 。 对 于 代表 “无 ”的 空缺 值 ,可 以 用 特定 的 值 来 代替 。 

对 于 不 一 致 数据 ,可 以 通过 人 工 纠正 的 方法 处 理 。 

4. 数据 离散 化 

对 于 给 定 的 数值 属性 ,可 以 通过 概念 分 层 来 进行 离散 化 ,概念 分 层 通 过 用 较 高 层 的 概念 
(如 年 龄 的 老 、 中 、 青 ) 替 换 较 低层 的 概念 (如 年 龄 的 具体 数值 ) 来 达到 归 约 数据 的 目的 。 

由 于 人 力 资源 库 中 的 属性 大 多 具有 有 限 个 不 同 值 ,可 以 生成 分 类 属性 的 概念 分 层 。 对 
这 些 属性 分 层 代码 的 确定 如 下 : 

。 职务 级 别 : 无 0 、 副 科 1、 正 科 2、 副 处 3、 正 处 4、 副 局 5、 正 局 6。 

。 最 高 学 历 : 初中 00 、 高 中 11、 中 技 ( 中 专 )01、 大 专 02、 学 士 03、 双 学 位 33 、 硕 士 04 . 博 
士 05、 博 士 后 06。 
职称 级 别 : 无 0、 初级 1、 中 级 2、 副 高 3、 正 高 4。 
。 身份 级 别 : 行政 1 . 工 勤 及 其 他 2、 教 辅 3、 教 师 4、 科 研 5。 
。 政治 面貌 : 群众 1、 共青团 员 2 ,共产党 员 3、 民 主 党 派 4。 
。 人 性 Jj: 女 0、 男 1。 
。 专业 代号 : 哲学 (社会 学 政治 法 律 )1、 经 济 管理 2 文化 教育 3、 自然 科学 4、 农业 科学 

5、 医 药 卫生 6 TERA T. 
。 考核 成 绩 : (995—100) A,C85—95)B,(C75—85)C,(60—75)D,60 以 下 E, 
。 毕业 学 校 : 重点 院 校 A 一般 院 校 B、 进 修 C、 专 科 DD、 中 技 ( 高 中 )E、 初 中 下 、 留 学 G。 
出 生年 代 : 例如 60.48 60—69 年 出 生 的 人 。 
。 KERR: Y 代表 是 兼职 。 
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最 后 ,得 到 的 用 于 挖掘 的 数据 集 如 图 5-1 所 示 。 


ewrces| Æ- dboscoreMining ME - 
KH Lj Coo zm EZI zc RIS) zu BY% 
B 1 so 3 5 3 s 时 € 
B 1 C] 3 5 4 a0 o ^ 
o 0 s 1 0 0 0 ot F 
c 1 s 3 6 4 80 o ^ 
o 1 5o 1 2 1 E o F 
o o so 3 4 4 s0 [3 B 
o 1 EJ 3 6 4 s 0 a 
c 1 40 3 5 4 80 os ^ 
o 1 40 3 了 4 70 os A 
o o 6o 3 o 1 s os c 
0 1 E] 3 4 0 E 04 c 
o 1 70 3 3 1 90 [3 B 
c o so 3 2 3 a0 03 B 
c 1 so 3 s 3 90 o ^ 
0 1 40 3 5 3 o [3 B 
o o C] 1 0 0 30 ol F 
E 1 60 3 4 3 0 o A 
D o 70 3 1 2 90 o B 
o 1 eo 3 0 2 o 0 B 
o 1 可 3 4 0 70 o D 
o o 7 3 0 1 90 [3 B 
o o so 3 3 0 70 o2 3 
0 1 so 3 0 2 90 u F 
o 1 可 1 o 0 90 ot F 
o o 60 1 o 0 80 u F 


图 5-1 用 于 挖掘 数据 集 


注意 : Weka 不 能 识别 汉字 ,所 以 字段 名 要 用 英文 表示 。 

图 5-1 中 的 数据 表 来 自 于 本 书 提供 的 SQL Server 数据 文件 humanResourse. mdf ,使 用 
SQL Server 的 数据 库 附加 功能 可 以 重建 该 数据 库 , 其 中 只 有 一 个 数据 表 HumanResources。 

5. 生成 挖掘 数据 源 

为 了 方便 地 使 用 Weka 处 理 本 任务 ,需要 将 数据 集 保存 为 ARFF 格式 ,根据 本 书 附 录 B 
所 述 的 数据 转换 方法 将 数据 从 SQL Server 导出 为 CSV. 文件 ,然后 再 转换 为 ARFF 文件 ， 


5.3.2. 模型 比较 和 选择 


用 Weka 的 Experimenter 模块 对 几 种 挖掘 模型 进行 比较 ,从 而 选择 适合 的 模型 。 
(1) 从 Weka GUI 首页 单 击 Experimenter 按钮 ,打开 Experimenter 首页 面 ,如 图 5-2 所 示 。 


Weka Experiment Environment 


Iteration Control 


YMunber of repetitions: | 


图 5-2 Experimenter 模块 界面 
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(2) Experimenter 有 两 种 配置 模式 : 简单 模式 和 高 级 模式 。 本 节 只 使 用 简单 模式 进行 
模型 的 建立 和 比较 。 首 先 , 要 创建 一 个 新 的 实验 , 单 击 New 按钮 使 得 各 个 配置 区 域 可 用 ,如 
图 5-3 所 示 。 


Feka Experiment Environment 


Setup | Rax | Analyse] 


Experiment Configuration Mode 


Number of repetitions: |10 
© Data sets first 
O Neorithns first. 


Algori thas 


Adà new. Edit select 


图 5-3 新 建 实验 


页 面 最 上 方 是 两 个 配置 模式 选择 按钮 Simple 和 Advanced, 

接 下 来 是 3 个 功能 按钮 ,分别 为 Open Save 和 New, 用 来 打开 、 保 存 和 创建 新 的 实验 。 

。 Result Destination 区 域 用 来 指定 实验 结果 保存 的 目的 文件 。 

* Experiment Type 区 域 可 以 指定 实验 类 型 ,如 “交叉 验证 ”或 “训练 /测试 ”, 同 时 指定 
交叉 验证 的 折 数 ,或 训练 /测试 数据 集 的 百分比 ,还 可 以 选择 实验 是 分 类 还 是 回归 。 

* Iteration Control 区 域 设 置 迭代 次 数 , 说 明 实 验 选择 “数据 集 优先 ”还 是 “算法 优先 ”。 

e Datasets 区 域 用 来 选择 数据 集 。 

e Algorithms 区 域 用 来 选择 算法 。 

在 结果 目标 文件 浏览 框 中 选择 结果 文件 类 型 ,可 选项 包括 ARFF 文件 .CSV 文件 和 
JDBC Database 文件 。 并 通过 浏览 按钮 选择 或 创建 一 个 目标 文件 ,实验 类 型 选择 为 交叉 验 
证 , 折 数 10。 保 持 迭 代 控 制 参数 不 变 。 

(3) 单 击 Datasets 区 域 的 Add new 按钮 添加 数据 集 , 选 择 上 面 转换 好 的 “E;: /书稿 / 实 
例 / 人 力 资源 /humanResourse. arff” 数 据 集 。 单 击 Algorithms 区 域 的 Add new 按钮 选择 算 
法 ,如 图 5-4 所 示 。 


weka. gui.GenericObjectEditor 


a Um 


About 


Class for building and using a 0-R classifier. 


图 5-4 添加 数据 集 
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(4) 在 图 5-4 中 的 对 话 框 中 , 单 击 Choose 按钮 ,选择 算法 ,如 图 5-5 所 示 。 


O weka 
BO elassifiers 
BO bayes 
由 -加 functions 
O lazy 
ü 9 m ed on More 
BO nise Capabilities 
BO rules 
BO trees 
© MTree 
© BFIree 
9 DecisionStump 
er 
. 
e 748 
9 J48graft 
© LADTree 
e um 
e ws 
© NHree 
© RandonForest 
9 RandonTree 
© REPTree 
9 SimpleCart v 


[ Filter... |[ Benove filter |[ Qlose ]| 


图 5-5 选择 算法 


(5) 选择 ID3 算法 和 BayesNet 算法 ,用 这 两 种 算法 对 HumanResource 数据 集 进行 
类 ,并 对 比分 类 结果 。 设 置 完成 后 的 页 面 状态 如 图 5-6 所 示 。 


Weka Experiment Environment 
Setup | fun | Analyse] 
Experiment Configuration Mode: O Advanced 


[ Open. ][ Yer 


Results Destination 


[ARE file — v Filename: (E: VESRBNCPI humannining cT 


Experiment Type Iteration Control 
[Eross-validation Baber of repetitions; [10 
Yosber of folds: |10 (S) Data sets first 

© Classification O Regression O Kigorithms first 


Datasets Algorithms 


Add new. [ Edit select Delete sel. [mb new... ) [ Edit selected 


Use relative .. 


ESBE A \hunanResourse. srff 


Load options. - Save options. Up 


Notes 


图 5-6 添加 算法 


(6) 从 任务 面板 选择 区 域 单 击 Run 标签 ,打开 运行 面板 ,并 在 该 面板 内 单 击 Start 按 
钮 ,Weka 开始 用 上 面 选择 的 两 个 算法 对 数据 集 进行 处 理 , 并 同时 在 Log 区 域 显示 处 理 的 开 
始 结束 时 间 , 以 及 错误 数 ,如 图 5-7 所 示 。 如 果 显 示 处 理 完 成 ,并 且 没 有 错误 发 生 (There 
were 0 errors), 则 表明 处 理 已 经 正确 完成 。 
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Weka Experiment Environment 


| Setup| Run | Analyse] 


Log 


11:35:27: Started 
11:35:43: Finished 
11:35:43: There were 0 errors 


Status 
Not running 


图 5-7 运行 算法 
(7) 单 击 Analyse 标签 转 到 结果 分 析 面 板 ,并 在 该 面板 右上 方 单 击 Experiment 按钮 ， 


表示 结果 分 析 的 来 源 为 刚刚 运行 的 实验 结果 。 也 可 以 在 任何 时 候 单 击 File 按钮 ,从 实验 配 
置 中 设置 的 结果 文件 将 实验 结果 装 入 ,如 图 5-8 所 示 。 


Weka Experiment Environment 加 回国 


Setup | Run| Analyse | 


Source 
Got 200 results File. Database. Experiment. 


Configure test J Test output 


Testing with Paired T-Tester ( {v Available resultsets 
Se = (1) trees.Id3 '' -2693678647096322561 


Bow Select (2) bayes.BayesNet '-D -Q bayes.net.search.local.K2 -- -P 1 -$ Bi 
Colunn Select 


Comparison field |Percent correct ~ 


Significance |0.05 


Sorting lase.) by | Cdefault> {v 


Test base Select 


Displayed Columns Select 


Show std. deviations 


Output Format Select 


Perform test 


Result list 


[2 7 Available resultsets 


图 5-8 查看 结果 列表 


(8) 图 5-8 中 的 Result list 列表 框 中 有 两 个 实验 结果 ,第 一 个 是 通过 Experiment 按钮 
装 入 的 ;第 二 个 是 通过 File 按钮 装 入 的 ,选中 其 中 一 个 ,就 会 在 Test output 区 域 显 示 该 实 
验 的 信息 。 
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可 以 通过 左边 的 Configure test 区 域 选 择 各 种 需要 比较 的 参数 。 
单 击 Perform test 按钮 ,将 在 Test output 区 域 显示 测试 结果 ,如 图 5-9 所 示 。 


Weka Experiment Environment 


[gile j[ Database.. ][ Experiment 


J Test output 


Paired T-Tester (.. M| | | Tester: weka. experinent.PairedCorrectedTTester 
0077777 ||Aamalysing: Percent 

Datasets: 1 

Resultsets: 2 

Confidence: 0.05 (two tailed) 

Sorted by: - 

Comparison field ¥ Date: 11-9-22 上 午 11:39 


Significance 


Sorting (asc.) by | (default? (1) trees.Id | (2) bayes 


Test base Selec! 


Displayed Columns elec! iv/ Li 1 (0/0/1) 


Show std. deviations 


Output Format elec! (1) trees.Id3 '' -2693678647096322561 
(2) bayes.BayesNet '-D -0 bayes.net.search.local.K2 -- 


5-9 显示 测试 结果 


结果 显示 了 测试 模型 的 基本 情况 ,以 及 测试 结果 ,包括 使 用 的 数据 集 名 称 以 及 两 种 算法 
分 类 结果 比较 。 

Configure test 区 域 中 提供 了 一 些 选 项 ,用 户 可 以 通过 这 些 选项 ,选择 感 兴趣 的 比较 条 
件 。 例 如 ,本 例 主 要 关心 使 用 两 类 算法 分 类 的 准确 性 比较 ,可 以 在 Comparison field 下 拉 列 
表 框 中 选择 比较 条 件 , 如 正确 分 类 的 百分比 ` 分 类 不 正确 的 百分比 ,没有 分 类 数据 的 百分比 、 
分 类 误差 等 等 。 

对 于 本 例 中 的 数据 ,ID3 算法 在 各 方面 都 优 于 bayes 算法 ,所 以 选择 ID3 算法 作为 本 问 
题 的 分 类 器 。 


5.4 案例 小 结 


Experimenter 模块 的 作用 是 比较 多 个 候选 模型 的 优 劣 ,帮助 用 户 选择 挖掘 模型 。 本 实 
例 首先 介绍 了 对 来 源 比较 复杂 的 数据 源 进行 预 处 理 所 需 要 的 几 个 关键 步骤 ,然后 在 Weka 
的 Experimenter 模块 中 建立 一 个 实验 ,通过 运行 该 实验 对 选择 的 两 个 分 类 模型 (ID3 模型 
和 bayes 模型 ) 进 行 比较 ,最 终 确定 一 个 最 优 的 挖掘 模型 。 

读者 可 以 从 本 章 获 得 的 知识 有 两 个 方面 ,一 是 了 解 人 力 资源 数据 挖掘 的 特点 ,数据 预 处 
理 方 法 和 挖掘 目的 ;二 是 学 习 Weka 的 Experimenter 模块 的 使 用 方法 。 
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实例 6 基于 贝 叶 斯 方法 的 证 券 客户 流失 预警 分 析 


6.1 任务 描述 


随 着 证 券 市 场 竞争 日 益 加 剧 ,证 券 市 场 已 经 由 佣金 战 以 及 价格 战 转 向 服务 战 ,而 服务 战 
的 核心 便 是 以 客户 为 中 心 展开 的 。 由 于 客户 保持 的 运营 成 本 远 小 于 客户 的 新 增 开发 成 本 ， 
所 以 如 何 预防 客户 流失 被 越 来 越 多 的 券商 所 关注 。 在 其 他 的 行业 如 移动 通信 行业 ,大 量 的 
实践 经 验 已 经 证 明 : 客户 保持 工作 的 最 佳 时 机 是 在 其 未 流失 时 ,其 原因 在 于 已 流失 客户 的 
回流 阻力 大 ,策反 工作 成 本 高 且 效 果 差 。 在 券商 经 纪 业 务 中 也 同样 存在 着 类 似 的 问题 。 券 
商 们 在 面 对 其 庞大 的 客户 群 时 ,不 可 能 对 每 个 客户 都 去 做 特殊 的 保护 工作 。 这 就 需要 券商 
建立 相应 的 流失 预警 机 制 ,通过 对 将 要 流失 的 高 价值 客户 进行 预测 ,及 时 了 解 他 们 的 需求 ， 
投入 一 定 的 资源 ,并 通过 针对 性 的 挽留 工作 避免 其 流失 。 这 样 可 以 提高 效率 ,而 且 可 以 大 大 
节省 成 本 ,获得 可 观 的 收益 。 

根据 证 券 从 业 人 员 经 验 , 以 下 9 个 属性 是 可 能 造成 客户 流失 的 重要 因素 : 
客户 级 别 (khjb); 
资金 转 出 率 (zjzcl); 
账户 空置 时 间 (zhkzsj); 
开户 时 间 (khsj); 
客户 佣金 率 (khyjl) ; 
客户 月 资产 收益 率 (khyzcsyl); 
2010 年 佣金 贡献 (nyjgx); 
营业 部 竞争 压力 (yybjzyl) ; 

。 地域 (dy)。 

某 券商 根据 以 上 影响 因素 ,收集 了 2000 名 客户 的 相关 数据 ,其 中 1000 名 为 销 户 客户 ， 
1000 名 为 未 销 户 客户 ,实际 部 分 数据 如 表 6-1 所 示 。 表 中 , xiaohu=b 表示 未 销 户 客户 ; 
xiaohu 一 c 表 示 销 户 客 户 。 


表 6-1 证 券 客 户 数据 
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CD 试 根据 这 些 数据 建立 证 券 客 户 流失 预警 模型 
(2) 评估 预警 模型 的 可 行 性 。 


6.2 技术 原理 


朴素 贝 叶 斯 分 类 器 是 贝 叶 斯 分 类 模型 中 一 种 最 简单 有 效 而 且 在 实际 使 用 中 很 成 功 的 
分 类 器 ,朴素 贝 叶 斯 分 类 基于 贝 叶 斯 定理 ,在 实际 运用 中 降低 了 贝 叶 斯 网 络 构建 的 复杂 性 。 
分 类 算法 的 比较 研究 发 现 ,朴素 贝 叶 斯 分 类 算法 可 以 与 判定 树 和 神经 网 络 分 类 算法 相 媲 美 ; 
用 于 大 型 数据 库 分 析 , 朴 素 贝 叶 斯 分 类 也 已 表现 出 高 准确 率 与 高 速度 ,而 且 已 经 成 功 地 应 用 
T RS 、 分 类 等 数据 挖掘 任务 中 。 


6.2.1 朴素 贝 叶 斯 分 类 算法 


(1) 每 个 数据 样本 用 一 个 n 维特 征 向 量 和 二 (zi ,zo，… ,zx, ) 表 示 , 属 性 A Az teto A H 
述 对 样本 的 个 度量 。 

(2) 假定 有 mm 个 类 Ci ,Cs,…,C。 给 定 一 个 未 知 的 数据 样本 X( 即 没有 类 标号 ) ,分 类 

法 将 预测 X 属于 具有 最 高 后 验 概率 (条 件 X 下 ) 的 类 。 即 朴素 贝 叶 斯 分 类 将 未 知 的 样本 分 
给 类 Ci, 当 且 仅 当 : 


(S) »(&). 0cj«cmjzi 


是 可 以 最 大 化 p( S) ,其 中 (总 )= 

(3) 由 于 p(X) 对 于 所 有 类 为 常数 ,只 需要 p( 会 )2(C) 最 大 即 可 。 

若 类 的 先 验 概率 未 知 , 则 通常 假定 这 些 类 是 等 概率 的 , 即 p(C1)=p(C;) 二 … 二 pp(C,)。 
But FG p (C ) 最 大 化 。 

若 类 的 先 验 概率 已 知 , 则 最 大 化 p (I- )2(C,)。 类 的 先 验 概率 可 以 用 pcco - ipt. 
BEP «s, 是 类 Ci 中 的 训练 样本 数 ;s 是 训练 样本 总 数 。 

CD. 给 定 具有 许多 属性 的 数据 集 ,计算 p ( 完 ) 的 开销 可 能 非常 大 。 为 降低 计算 
p( 主 ) 的 开销 ,可 以 做 类 条 件 独立 的 相 素 假定 , 即 给 定 样本 的 类 标号 ,假定 属性 值 条 件 地 相 
互 独立 , 即 属性 间 不 存在 依赖 关系 。 这 样 ， 

»5)- E) $n 
概率 卫 ( 娠 ),P( 娃 ),…,P 卫 ( 娃 ) 可 以 由 训练 样本 估 值 ,其 中 ， 

如 果 A, 是 离散 型 属性 , 则 P (从) 一 送 ;su 是 在 属性 A。 上 具有 值 zx 的 类 C, 的 训练 
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样本 数 , 而 s; 是 C; 中 的 训练 样本 数 。 
。 如 果 A 是 连续 型 属性 , 则 通常 假定 该 属性 服从 高 斯 分 布 。 因 而 
(=)= BC uc 0g) = VERO ^ (6-2) 
其 中 ,给 定 类 C; 的 训练 样本 属性 Ai 的 值 ，g Crac; ,oc) 是 属性 As 的 高 斯 密度 函数 ,而 


uc, ,cc 分 别 为 平均 值 和 标准 差 。 
C) 对 每 个 类 C ,计算 P(& -)P (G, )。 样 本 X 被 指派 到 类 C; ,当日 仅 当 : 


P( 去 )e«co » p(& JPC), 1Ixjsmjzi 


换言之 ， x 被 指派 到 使 P( 闻 - JP Cos RZ C; 


6.2.2. 朴素 贝 叶 斯 分 类 举例 


给 定 训练 数据 如 表 6-2 所 示 ,数据 样本 用 属性 age, income, student 和 credit rating 描 
述 。 类 标号 属性 buys computer 具有 两 个 不 同 值 ( 即 {yes,no})。 给 定 一 个 没有 类 标号 的 数 
据 样 本 X= Cage — " — = 30". income = “medium”, student = “yes”, credit _ rating = 
“fair”) ,下 面 使 用 朴素 贝 叶 斯 分 类 预测 这 个 数据 样本 的 类 标号 。 
R 6-2. AllElectronics 顾客 数据 库 训 练 数据 元 组 


RID age income Credit_rating Class: buys_computer 
1 <=30 high fair No 
2 <=30 high excellent No 
3 31-40 high fair Yes 
4 >40 medium fair Yes 
5 >40 ow fair Yes 
6 >40 ow excellent No 
7 31…40 ow excellent Yes 
8 <=30 medium fair No 
9 <=30 ow fair Yes 
10 >40 medium fair Yes 
11 <=30 medium excellent Yes 
12 31…40 medium excellent Yes 
13 31…40 high fair Yes 
14 >40 medium excellent No 


设 C, 对 应 于 类 buys_computer 一 “yes”, 而 C: 对 应 于 类 buys computer —"no", $ #5 
前 面 的 讲述 ,需要 最 大 化 P(& -JP (OD ， 计 12。 


每 个 类 的 先 验 概率 P(C;) 可 以 根据 训练 样本 计算 : 
* B8 


P(buys computer— *yes") —9/14—0. 643 
P(buys computer *no") —5/14-0. 357 
为 计算 pOX/CO ,i 二 1,2, 计 算 下 面 的 条 件 概 率 : 
P(age— *—30"|buys computer—"yes") —2/9—0. 222 
P(age- *— 30" | buys computer no") —3/5-0. 600 
PCincome-— “medium” | buys computer-" yes") —4/9—0. 444 
P(income= “medium” | buys computer—*"no") —2/5- 0. 400 
P(student-—"yes"|buys computer "*yes") —6/9-—0. 667 
P(student—"yes"|buys computer *no") —1/5—0. 200 
PCcredit rating "fair" | buys computer "*yes") =6/9=0. 667 
P(credit rating "fair"| buys computer— *no") —2/5—0. 400 
使 用 以 上 概率 ,得 到 : 
P(X|buys_computer=“yes”)=0. 222X0.444X0.667X0.667=0. 044 
P(X|buys_computer=“no”)=0. 600X 0. 400 X0.200X0.400=0. 019 
P(X|buys_computer=“yes”) P(buys_computer=“yes”)=0.044X0.643=0. 028 
P(X|buys_computer=“no”) P(buys_computer=“no”)=0.019X0.357=0. 007 
因此 ,对 于 样本 X, 由 于 0.02870. 007 ,朴素 贝 叶 斯 分 类 预测 buys_computer 二 “yes”。 


6.3 具体 实现 


CD 选择 “开始 ”一 “所 有 程序 ”>Weka 3. 6. 5— Weka 3.6 命令 ,如 图 6-1 所 示 。 


回 Microsoft Office 
BH Windows Install Clean Up dE] Documentation 


加 MathType 5 (9 Uninstall Weka 3.6.5 
所 有 程序 CE) D D neus 


#\ Weka 3.6 
MEE 
E Microsoft Silverlight 

BÍ 癌 Microsoft SQL Server 2005 


图 6-1 打开 Weka 软件 


(2) 在 打开 的 文件 中 , 单 击 Explorer 按钮 ,如 图 6-2 所 示 。 


(*!Weka GUI Chooser 
Program Visualization Tools Help 
Applications 


WEKA [| me. 


The University 
of Waikato 


Experimenter 


Tailmto Environment for Knowledge Analysis KnowledgeFlow 
Verzion 5.6.5 

(e) 1999 - 2011 
The University of Waikato Simple CLI 
Hamilton, Wew Zealand 


图 6-2 打开 Explorer 应 用 
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(3) 单 击 Open file 按钮 ,选择 要 打开 的 文件 zhqkehuliushi. csv, 并 单 击 “打开 ”按钮 ,如 
图 6-3 所 示 。 


[了 geka Explorer 


Preprocess [115515 


y [Cluster [Associate [Select attributes [vi susti ze 
Open file... 


Filter 


: [Cable 贝 叶 斯 证 券 客户 流失 a eroa 


Current relation 
Relation: None 
Instances: None 


Attributes 


Al 


[zhakehuliushi. csv 


网 上 邻居 | 文件 类 型 : 


[CSV date files (*.csv) 


Status 
Welcome to the Weka Explorer 


6-3 打开 数据 文件 


(4) 在 打开 如 图 6-4 所 示 的 界面 中 ,知道 zhqkehuliushi 数据 集中 共有 2000 个 实例 ,每 
个 实例 有 10 个 属性 。 选 中 某 个 属性 ,可 以 查看 2000 个 实例 关于 这 个 属性 值 的 最 小 值 .最 大 
值 .均值 和 标准 差 等 信息 。 然 后 单 击 Classify 标签 ,并 单 击 Choose 按钮 ,如 图 6-4 所 示 。 


($ Weka Explorer 


TER 


Preprocess | Classifyl Cluster | Associate] Select attributes] Visualize! 


Open file Open WRL.. |][ Open nB. [Generate 


Filter 


Choose |None 


Apply 


Current relation 
Relation: zhqkehuliushi 
Instances: 2000 Attributes: 10 


Selected attribute 


Name: xiaohu Type: Noninal 
Missing: 0 (0X) Distinct: 2 Unique: 0 (0%) 


No. Label Count 


ifb [1000 
a Hone Invert | [ Pattern 2|c 


[1000 


Attributes 


Name 
Dyydjzyl 
hsj 
[Lai J 
Hs Class: xiaohu (Nom) v visualize al | 
zhkzsj 

lyjl 

[wie 
khyzesyl 
dy 


图 6-4 查看 数据 特征 
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(5) 如 图 6-5 所 示 ,选择 NaiveBayes 分 类 器 , 单 击 Close 按钮 。 


(Ti¥eka Explorer 


ifier output 


Benove filter |[ Qose 


图 6-5 选择 分 类 方法 
(6) 双击 NaiveBayes 可 以 对 算法 的 参数 进行 设置 ,这 里 选择 默认 参数 ,如 图 6-6 所 示 。 


í*)Weka Explorer 


|Preprocess| Classify | Cluster | Associate Select attributes, Visuslizel 


Class for a Naive Bayes classifier using estimator classes. 


debug (False 


displayModellnÜldFormat | 


wseKernelEztimator False 


useSupervi sedDi scretization 


TS 


6-6 进行 参数 设置 


(7) 测试 方法 选择 10 折 交 叉 验 证 , 单 击 Start 按钮 , Weka 软件 显示 运行 结果 ,可 知 正确 
RH 86. 75 6 ,如 图 6-7 所 示 。 

(8) 在 结果 显示 中 还 可 以 看 到 ,1000 名 未 销 户 客户 有 855 名 预测 为 未 销 户 客户 ,145 名 
预测 为 销 户 客户 ;1000 名 销 户 客户 有 880 名 预测 为 销 户 客户 ,120 名 预测 为 未 销 户 客户 ,如 
图 6-8 所 示 。 
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(9) 如 图 6-9 所 示 ,可知 正确 率 为 86. 75% ,利用 朴素 贝 叶 斯 模型 已 基本 能 达到 券商 的 


要 求 。 


(FY¥eka Explorer 


E m 
Preprocess 0 Cluster | Associate | Select attributes | Visualize 


Classifier 


[ Choose |NaiveBayes 


Test options 

O Wse training set 

O Supplied test set 

Q Cross-validation Folds 10 


O Percentage split 


More optio 


(Nom) xiaohu 


Start 


Result list (right-click for options) 


Classifier output 


Stratified cross-validation = 
Summary 


Correctly Classified Instances 1735 
Incorrectly Classified Instances 265 

Kappa statistic 0.735 
Mean absolute error 0.2379 
Root mean squared error 0.3337 
Relative absolute error 47.581 $ 
Root relative squared error 66.7405 $ 
Total Number of Instances 2000 


Detailed Accuracy By Class 


TP Rate FP Rate Precision Recall F-Measure 


0.855 0.12 0.877 0.855 
0.88 0.145 0.859 0.88 
Weighted Avg. 0.868 0.133 0.868 0.868 


=== Confusion Matrix === 


0.866 
0.869 
0.867 


ROC i 
Ot 
0.f 
0.t 


Status 
DK 


Feka Explorer 


6-7 运行 分 类 算法 


Preprocess || lassi fy] Cluster | Associate | Select attributes | Visualize 


Classifier 


Choose  |NaiveBayes 


Test options 


O Use training set 
O Supplied test set 
(Cross-validation Folds 10 
O Percentage split 


More options. 


(Nom) xiaohu 


p 


Result list (right-click for options) 


Classifier output 


Incorrectly Classified Instances 265 

Kappa statistic 0.735 
Mean absolute error 0.2379 
Root mean squared error 0.3337 
Relative absolute error 47.581 $ 
Root relative squared error 66.7405 * 
Total Number of Instances 2000 


=== Detailed Accuracy By Class === 


TP Rate FP Rate Precision Recall F-Measure 


0.855 0.12 0.877 0.855 
0.88 0.145 0.859 0.88 
Weighted Avg. 0.868 0.133 0.868 0.868 


=== Confusion Matrix === 


a b <-- classified as 
855 145 | a=b 
120 880 | b=c 


< 


0.866 
0.869 
0.867 


Status 
OK 


图 6-8 分 析 运 行 结果 


(f Feka Explorer 


Preprocess| Classify | Cluster | Associate | Select attributes | Visuslize 


Classifier 


[C Choose |NaiveBayes 


Test options Classifier output 


O Wse training set Time taken to build model: 0seconds 
O Supplied test set 


(G)Cross-validetion Folds 


O Percentage split 

Correctly Classified Instances 1735 

Incorrectly Classified Instances 265 

Kappa statistic 0.735 
Mean absolute error 0.2379 

(Nom) xiaohu 

Sep- an — | Root mean squared error 0.3337 

Relative absolute error 47.581 & 

Root relative squared error 66.7405 $ 
Result list (right-click for options) | Total Number of Instances 2000 


More options... 


=== Detailed Accuracy By Class === 


TP Rate FP Rate Precision Recall F-Measure ROC i | 
0.855 0.12 0.877 0.855 0.866 

0.88 0.145 0.859 0.88 0.869 

Weighted Avg. 0.868 0.133 0.868 0.868 0.867 


=== Confusion Matrix === 
< 


Status 


DK 


图 6-9 查看 正确 率 


6.4 案例 小 结 


朴素 贝 叶 斯 分 类 基于 贝 叶 斯 定理 ,已 经 成 功 地 应 用 于 聚 类 、 分 类 等 数据 挖掘 任务 中 。 分 
类 算法 的 比较 研究 发 现 ,朴素 贝 叶 斯 分 类 算法 可 以 与 判定 树 和 神经 网 络 分 类 算法 相 媲美 ;用 
于 大 型 数据 库 分 析 , 朴 素 贝 叶 斯 分 类 也 已 表现 出 高 准确 率 与 高 速度 。 本 案例 结合 证 券 客 户 
流失 实际 数据 ,利用 Weka 软件 中 提供 的 朴素 贝 叶 斯 分 类 方法 ,建立 了 证 券 客 户 流失 预警 模 


型 ,取得 了 较 高 的 客户 流失 预警 正确 率 。 本 案例 可 以 在 补充 测试 集 的 情况 下 ,进一步 检验 预 
警 模型 的 可 行 性 。 
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实例 7 基于 人 工 神经 网 络 方法 的 信贷 数据 分 析 


7.1 任务 描述 


本 案例 为 “ 某 商 业 银 行 信 贷 ” 数 据 库 ,其 中 记录 了 客户 的 背景 数据 以 及 贷款 情况 ,包括 
“客户 基本 情况 表 ”“ 分 行 代码 表 ” 和 “贷款 余额 表 ” 三 张 基 本 表 。 其 中 ,客户 基本 情况 包括 
“客户 代码 ”“ 客 户 名 称 ”“ 客 户 类 型 " “经济 性 质 ”“ 素 属 关 系 ”“ 法 人 资格 "“ 客 户 状 态 ” 和 
“重点 标志 ” 共 8 个 属性 。 其 中 ,“ 客 户 名 称 ” 用 代号 区 分 各 个 单位 ,没有 具体 提 及 真实 单位 名 
称 。 这 些 属性 都 是 银行 发 现 客户 背景 与 不 良 贷款 记录 之 间 关 系 的 主要 依据 。“ 贷 款 余额 表 ” 
记录 了 客户 的 贷款 及 归还 情况 。 

不 良 贷款 可 以 界定 为 银行 投放 贷款 后 形成 的 信贷 资产 中 不 符合 安全 性 ,流动 性 EUR TE 
原则 ,处 于 逾期 .呆滞 或 呆账 状态 ,而 使 银行 资产 风险 加 大 并 面临 资本 损失 的 那 部 分 贷款 。 
按照 人 民 银 行 的 规定 ,不 良 贷款 可 以 分 成 5 类 : 正常 .关注 ,次 级 可疑 和 损失 。 本 案例 的 任 
务 就 是 发 现 具有 哪些 背景 的 用 户 更 容易 产生 不 良 贷款 ,从 而 对 贷款 去 向 进行 监督 ,避免 损 
失 , 也 可 以 帮助 银行 为 优质 客户 提供 更 好 的 服务 。 


7.2 技术 原理 


以 数学 和 物理 方法 以 及 从 信息 处 理 的 角度 对 人 脑 神经 网 络 进行 抽象 ,并 建立 某 种 简化 
模型 , 称 为 人 工 神经 网 络 (Artificial Neural Network. ANN). 在 模式 识别 、 系 统 辨 识 、 信 号 
处 理 、 自 动 控制 ,组 合 优化、 预测 预 估 、 故 障 诊 断 、 数 据 挖掘 、 医 学 和 经 济 学 等 领域 ,人 工 神经 
网 络 已 经 成 功 解 决 了 许多 现代 计算 机 难以 解决 的 实际 问题 ,表现 出 良好 的 智能 特性 和 潜在 
的 应 用 前 景 。 

人 工 神 经 网 络 的 特点 和 优势 主要 表现 在 以 下 3 个 方面 : 第 一 ,具有 自学 习 功 能 。 例 如 ， 
实现 图 像 识 别 时 ,只 要 先 把 不 同 的 图 像样 本 和 对 应 的 识别 结果 输入 人 工 神经 网 络 , 网 络 就 会 
通过 自学 习 功 能 , 慢 慢 学 习 识别 类 似 的 图 像 。 第 二 ,具有 联想 存储 功能 。 人 工 神经 网 络 的 反 
馈 网 络 可 以 实现 这 种 联想 。 例 如 ,经 过 训练 的 神经 网 络 可 以 从 “眼睛 ”特征 恢复 整个 人 脸 图 
像 ,这 叫做 自 联想 ,从 "勺子 ?联系 出 * 簧 子 "“ 碗 ?等 ,这 叫做 互联 想 。 第 三 ,具有 高 速 寻找 优 
化 解 的 能 力 。 寻 找 某 个 复杂 问题 的 优化 解 往往 需要 很 大 的 计算 量 , 利 用 针对 特定 问题 而 设 
计 的 反馈 型 人 工 神 经 网 络 ,发 挥 计 算 机 的 高 速 运算 能 力 , 可 以 很 快 找到 优化 解 。 

BP(Back Propagation) 神 经 网 络 是 迄今 为 止 应 用 最 为 广泛 的 神经 网 络 , 现 将 该 网 络 的 
一 些 基 本 知识 点 进行 简单 回顾 ,以 便 读者 理解 该 案例 的 应 用 。 


7.2.1 BP 神经 网 络 结构 


BP 神经 网 络 不 仅 有 输入 结 点 .输出 结 点 ,而且 还 有 一 层 或 多 层 隐 含 结 点 ,神经 元 的 变换 
函数 采用 (0,1)S 型 函数 ,如 图 7-1 所 示 。 
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NI 


NI 


图 7-1 BP 神经 网 络 示意 图 


在 图 7-1 中 ,最 下 面 的 层 为 输入 层 , 第 Q 层 为 输出 层 , 中 间 各 层 为 隐 含 层 , 设 第 q 层 (9 一 
1,2,…,Q) 的 神经 元 个 数 为 n,, 输 入 到 第 gq 层 的 第 i 个 神经 元 的 连接 权 系 数 为 ow (i 二 1， 
2,… ,ng3j 二 1,2,… sn) 。 该 网 络 的 输入 输出 变换 关系 为 


二 全 
4? — Maga? ie? =, =—1) 
j=0 
xf? = fef) — — 
Ee 
i-1,02,emm2 j—1,2,29nmas q—1012,Q (7-1) 


7.2.2 BP 神 经 网 络 学 习 算 法 


在 BP 神经 网 络 中 ,输入 信号 是 从 输入 层 到 隐 层 再 到 输出 层 传递 的 。 最 后 一 个 隐 层 与 
输出 层 之 间 的 连接 权 是 输出 误差 的 显 函 数 ,而 其 他 层 之 间 的 连接 权 则 是 输出 误差 的 隐 函 数 。 
如 果 神 经 元 的 作用 函数 是 连续 可 微 的 ,那么 每 一 连接 权 对 输出 误差 的 影响 都 可 以 由 误差 对 
权 值 的 偏 导 数 定量 的 描述 。 此 时 ,如 果 把 权 值 按照 梯度 的 反方 向 修正 则 可 以 使 误差 减 小 。 
这 种 思想 便 是 误差 反 向 传播 (BP 算法 ) 的 本 质 。 详 细 计 算 方法 如 下 : 


设 取 拟 合 误差 的 代价 函数 为 
1 P ?Q P 
E=32 21d P = ME, (7-2) 
p=1 i-1 p=1 
即 
1x 
E,- 721» — x» (7-3) 


问题 是 如 何 调整 连接 权 系 数 以 使 代价 函数 最 小 。 优 化 计算 的 方法 很 多 ,比较 典型 的 是 
采用 一 阶梯 度 法 , 即 最 速 下 降 法 。 该 方法 的 关键 是 计算 优化 目标 函数 ( 即 上 述 的 误差 代价 函 
JO E 对 寻 优 参数 的 一 阶 导数 。 依 次 从 输出 层 开 始 计 算 如 下 : 


9 
2E (g=Q,Q— ly,l) 
Jo P 
由 于 
JE _ 3 JE, 
Qoi" pt Iw 
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所 以 应 着 重 讨论 的 计算 。 
对 于 第 Q 层 有 
9E, _ 9E, LES asg — MV pg (XQ (QQ7D MOOD 
9 3$ 249 P (dy — PRIF ORE —— Pad (7-4) 
其 中 
3 
o = AP d. — a(9) f' P) 
v.s Aci O 表示 利用 第 p 组 输入 样本 所 算得 的 结果 。 
对 于 第 Q 一 1 层 有 
JE, 3E, Ig” » 9E, O5? iaa? agg 
a ‘dR gg qo» [2 1 9s 3:97 ) 2: ag 7? 
"ng 
= (JPTP (GR? =— 0 (7-5) 
k=1 
其 中 
aE e ocu 
ag? = ED (Zo omm 


显然 , 它 是 反 向 递 推 计算 的 公式 , 即 首先 计算 出 8& 然后 再 由 上 式 递 推 计 算出 L”. 
依次 类 推 ,可 继续 反 向 递 推 计算 出 5? 和 卫生 (4 一 Q 一 2,…,1) 。 从 上 式 看 出 ,在 6% 的 表 


~) 
Jo ij 


达 式 中 包含 了 导数 项 FG. ,由 于 BP 网 络 使 用 S 形 函数 ,所 以 其 导数 可 求 得 如 下 : 


19 = /G8)=— 
1 十 e 
EI 
(Yo pe” (9) (9) (9 ( (D 
Í GP) = ——— p Suf SGR )] = peg I= (7-6) 
Ü pet y 


最 后 可 归纳 出 BP 网 络 的 学 习 算法 如 下 : 
WP GO--D-—s)-ceD? G--D. a>0 


Li 
(Q — (gq) ,.(q71) 
D? = ». Tp 
p=1 


n cl 


òp = ( PAC C i )uxs? (1— zx) 


oj = (dy Pd a=) 
d 一 QQ 一 1,…，1; i= l.2..m; j= 1,2, sny (7-7) 
BP PiK t T CAR Af 85 3t te Eo 因而 它 可 应 用 于 数据 挖掘 、 信 息 处 理 、 图 
像 识别 等 多 个 方面 。 
Microsoft 神经 网 络 支持 Microsoft 决策 树 可 以 执行 的 所 有 任务 ,包括 分 类 、 回 归 和 关 
联 。 前 两 个 任务 是 神经 网 络 最 常见 的 任务 ,而 关联 任务 可 能 太 耗 时 和 耗资 源 , 所 以 一 般 不 推 
荐 使 用 神经 网 络 。Microsoft 神经 网 络 算法 在 使 用 中 有 可 以 调整 的 参数 , 均 可 以 根据 需要 及 
挖掘 结果 进行 调整 。 在 本 章 案 例 中 ,使 用 了 参数 的 默认 值 。 
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7.3 具体 实现 


在 进行 数据 挖 气 之 前 ,需要 建立 “数据 源 ”" 和 “数据 源 视图 ”"。 本 章 的 案例 为 “ 某 商业 银 
行 信贷 ”数据 库 , 其 中 记录 了 客户 的 背景 数据 以 及 贷款 情况 ,银行 需要 从 这 些 数 据 中 发 现 客 
户 背 景 与 不 良 贷款 记录 之 间 的 关系 , 即 发 现 具有 哪些 背景 的 用 户 更 容易 产生 不 良 贷款 ,从 而 
对 贷款 去 向 进行 监督 ,避免 损失 ,也 可 以 帮助 银行 为 优质 客户 提供 更 好 的 服务 。 


7.3.1 数据 准备 
图 7-2 和 图 7-3 所 示 分 别 是 * 某 商业 银行 信贷 ?数据 中 的 两 个 基本 表 : 客户 基本 情况 表 


E doP ERRAR ME T » -Xx 

,客户 代码 客户 名 称 客户 类 型 经 济 性 质 HOUR 法 人 资格 客户 状态 S 
》 S koso 单 位 Ik 其 地 股份 制 省 属 法 人 ER E 

[77020105000009 ko03 单 位 xu 其 他 HOUR 法 人 ER 

77020105000010 。 kolo 单位 工业 国有 省 属 法 人 ER 

[77020105000013 K013 单 位 xu 其 他 省 属 法 人 正常 

|77020105000025 。K025 单 位 商业 国有 控股 HHE 法 人 正常 

|77020105000037 。 Ko37 单 位 商业 其 地 省 属 法 人 停产 

|77020105000040 。 ko40 单 位 商业 民营 其 他 法 人 停产 

77020105000042 。 KD42 单 位 Ik 集体 HAER 法 人 正常 

|77020105000104 。 Ki04 单 位 工业 国有 中 央 法 人 正常 

[77020105000112 K112 单 位 xu 其 他 其 他 E 停产 

77020105000120 。 Kiz0 单 位 工业 其 他 XR 法 人 停产 

|77020105000121 。K121 单 位 其 他 其 他 无 隶属 法 人 停产 

|77020105000122 。K122 单 位 商业 外 贸 其 他 二 级 法 人 停产 

|77020105000136 。K136 单 位 工业 国有 控股 中 央 E 正常 

| 77020105000139 。 Ki39 单 位 工业 国有 控股 中 央 法 人 ER 

(77020105000145 。K145 单 位 商业 外 贸 省 属 法 人 ER 

(77020105000157 。Kl57 单 位 商业 私营 无 隶属 法 人 正常 

[77020105000158 Ki58 单 位 商业 外 贸 其 他 法 人 正常 

| 77020108000001 。 kool 单位 工业 DARE 省 属 授权 法 人 ER 

(77020108000016 。 Ko16 单 位 工业 a 无 隶属 法 人 正常 

(77020108000045 Koasati mp 国有 省 属 授权 法 人 ER 

|77020108000049 。K049 单 位 商业 国有 控股 LUI 法 人 半 停 产 

77020108000050 ”koso 单 位 商业 国有 TR 法 人 正常 


7-2 客户 基本 情况 数据 


~ dbo.: zda; RE zx 

,分 行 代码 客户 代码 业务 发 生日 cR 正常 关注 次 级 aE 损失 e 
> ma 77020101000060 2002-3-20 0:00:00 44000000.00 44000000.00 0.00 0.00 0.00 0.00 
7702 77020105000009 2002-8-30 0:00:00 2700000.00 0.00 0.00 0.00 2700000.00. 0.00 
mz 77020105000009 2002-8-30 0:00:00 1200000.00 0.00 0.00 0.00 1200000.00 0.00 
|7702 77020105000009 2002-7-30 0:00:00 3000000.00 0.00 0.00 0.00 3000000.00. 0.00 
7702 77020105000009 2002-9-25 0:00:00 500000.00 0.00 0.00 0.00 500000.00 0.00 
|7702 77020105000009 2002-9-25 0:00:00 1410000.00 0.00 0.00 0.00 1410000.00 0.00 
|7702 77020105000009 2002-8-30 0:00:00 1400000.00 0.00 0.00 0.00 1400000.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 526457.00 526457.69 0.00 0.00 0.00 0.00 
7702 77020105000010 2002-8-31 0:00:00 10474.00 10474.58 0.00 0.00 0.00 0.00 
17702 77020105000010 2002-8-31 0:00:00 70623.00 70623.69 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-5-31 0:00:00 20393.00 20393.01 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 468.00 468.83 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 20882.00 20882.30 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 3519.00 3519.27 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 298505.00 298505.28 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 54395.00 54395.64 0.00 0.00 0.00 0.00 
7702 77020105000010 2002-8-31 0:00:00 83952.00 83952.70 0.00 0.00 0.00 0.00 
7702 77020105000010 2002-8-31 0:00:00 6266.00 6266.48 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 313747.00 313747.75 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 1271511.00 1271511.10 0.00 0.00 0.00 0.00 
|7702 77020105000010 2002-8-31 0:00:00 450770.00 450770.20 0.00 0.00 0.00 0.00 
7702 77020105000010 2002-8-31 0:00:00 560833.00 560833.51 0.00 0.00 0.00 0.00 
17702 77020105000010 2002-8-31 0:00:00 21508.00 21508.80 0.00 0.00 0.00 0.00 

7-3 贷款 余额 数据 
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首先 为 了 区 分 贷款 余额 表 中 的 每 一 项 业务 ,在 该 表 中 添加 了 一 个 主键 列 , 命 名 为 “业务 
号 ”, 使 用 “smallint” 数 据 类 型 。 
然后 ,为 了 简化 挖掘 过 程 ,将 这 两 张 表 的 信息 合并 到 同一 张 表 中 ,合并 方法 如 图 7-4 所 
示 的 SQL 语句 。 合 并 后 产生 的 新 表 命 名 为 t_dm。 
2B0EGE3327A1..QLQueryl.sqi* | 表 -do RRAN | 表 - bo, 客户 基本 情况 表 | 摘要 | 
bp. 正常 ,bp. 关 注 ,b. 次 级 ,b. 可 疑 ,b. 损 失 ,b. 业 务 号 
fen 客户 基本 情况 表 ss a 
join HECREMR co 
on a AERE HL 客户 代码 


图 7-4 用 于 合并 的 SQL 数据 


与 其 他 挖掘 模 型 一 样 ,神经 网 络 模型 需要 做 一 些 设置 ,包括 两 个 方面 : 指定 列 的 用 法 和 
设置 挖掘 参数 。 其 中 , 挖 据 参 数 设置 本 实例 使 用 默认 设置 。 列 的 用 法 如 表 7-1 所 示 。 


表 7-1 列 的 用 法 


为 了 满足 神经 网 络 对 数据 的 要 求 , 即 神经 网 络 要 求 输入 数据 都 是 数值 类 型 ,对 该 数据 库 
进行 数据 类 型 转换 处 理 ,将 € dm. 表 中 用 作 输 入 列 的 文本 类 型 数据 转换 成 数值 类 型 。 下 面 
以 输入 列 “ 经 济 性 质 ” 为 例 , 来 说 明 具 体 转换 过 程 ,其 他 列 的 转换 也 是 类 似 的 。 

CD 统计 输入 列 中 不 同类 别 的 个 数 ,SQL 实现 语句 及 执行 结果 如 图 7-5 所 示 。 


select count(*) ,经 济 性 质 from t_dm group by 经 济 性 质 


(a) 统计 类 别 SQL 语 句 

aeram] 
AAB) 经 济 性 质 

1 pg 4e 

2— 

3 408 股份 合作 

4 36 民营 

5 208 其 他 

6 7 zm 

ra 部 队 

8 18 学 校 


(b) 执行 结果 


图 7-5 位 计 类 别 
PE 


(2) 根据 步骤 (1) 统 计 信息 用 数值 来 替代 文本 数据 ,SQL 实现 语句 及 执行 结果 如 图 7-6 
所 示 。 


update t dm set 经 济 性 质 = '1' where 经 济 性 质 = ' 国 有 ' LE | 
update t dm set 经 济 性 质 = '2' where 经 济 性 质 = ' 其 他 股份 制 ' uzez 行 受 影 响 
update t dm set 经 济 性 质 = '3' where 经 济 性 质 = ' 其 他 ' 455 行 受 影响 ; 
update t dm set 经 济 性 质 = '4' where 经 济 性 质 = ' 国 有 控股 ' (zos 行 受 影响 ; 
update t dm set 经 济 性 质 = '5' where 经 济 性 质 = ' 民 营 ' 4496 行 受 影响 ; 
update t dm set 经 济 性 质 = '6' where 经 济 性 质 = ' 集 体 ' (36 TEN: 
update t dm set 经 济 性 质 = '7' where 经 济 性 质 = ' 外 贸 ' 1419 TOES 
update t dm set 经 济 性 质 = '8' where 经 济 性 质 = ' 私 营 ， us ind 
update t dm set 经 济 性 质 = '9' where 经 济 性 质 = ' 三 资 ' 1106 TENN 
update t dm set 经 济 性质 = '10' where 经 济 性 质 = ' 股 份 合作 ， (72 cud 
update t dm set 经 济 性 质 = '11' where 经 济 性 质 = ' 集 体 控股 ' 1408 行 受 影响 ， 
update t dm set 经 济 性 质 = '12' where 经 济 性 质 = ' 研 究 所 ' 474 行 受 影响 | 
update t dm set 经 济 性 质 ='13' where 经 济 性 质 = ' 机 关 团 体 ' (1 Wi 
update t dm set 经 济 性 质 = '14' where 经 济 性 质 = ' 医 院 ' (38 Eh 
update t dm set 经 济 性质 = '15' where 经 济 性 质 = ' 学 校 ' us Mei 
update t dm set 经 济 性质 = '16' where 经 济 性 质 = ' 个 体 ' ue TUN: 
update t dm set 经 济 性质 = '17' where 经 济 性 质 = "RIA " Kien 
update t dm set 经 济 性 质 = '18' where 经 济 性 质 = KE ' (1 TEWMA) 
E Ca) 更 新 表 中 数据 SQL 语句 (b) 执行 结果 


图 7-6 数据 替代 命令 及 结果 


所 有 输入 列 经 过 以 上 两 步 处 理 之 后 ,部 分 t_dm 表 中 数据 如 图 7-7 所 示 。 


K010 单 位 1 
ko10 单 位 1 
ko10 单 位 1 
KD10 单 位 1 
Ko10 单 位 1 
Kolo 单 位 1 
ko10 单 位 1 
Ko13 单 位 8 
K025 单 位 2 
ko37 单 位 2 
kk037 单 位 2 
ko40 单 位 2 
|K040 单 位 2 
ko40 单 位 2 
Ko40 单 位 2 
K040 单 位 2 
ko40 单 位 2 
ko042 单 位 1 
|K042 单 位 1 
Kk104 单 位 1 
K112 单 位 8 
klz0 单 位 1 
K121 单 位 8 
Jk121 单 位 8 


lv v NN »N Nw N 9» 9» 9 N N N 9NMVNMVNNMVNVNNNNYYNS 


lo N 9N—--c- NM NNMNYVNMNcC---6:-£6264 


图 7-7 处 理 后 数据 


为 了 得 到 更 简洁 挖掘 结果 ,对 该 数据 库 中 “t_dm” 表 的 次 级 .可疑 . 损 失 、 余 额 和 正常 
5 个 字段 进行 了 更 新 处 理 ,SQL 处 理 语句 如 下 : 

Update 贷款 余额 表 set 次 级 =1 where 次 级 > 0.0 

Update 贷款 余额 表 set 可 疑 =1 where 可 疑 > 0.0 

Update 贷款 余额 表 set 损失 =1 where 损失 > 0.0 


Update 贷款 余额 表 set 余额 =1 where 余额 > 0.0 
Update 贷款 余额 表 set 正常 =1 where 正常 > 0.0 


7.3.2 挖掘 流程 


(D 从 Windows 菜单 启动 Microsoft Visual Studio ,如 图 7-8 所 示 。 


同一 键 cHDST 绿 色 版 
I) Microsoft Office >) Analysis Services 
D 装机 人 员工 具 0 配置 工具 


T 瑞星 个 人 防火 墙 ”加 文档 和 教程 
D 瑞星 杀毒 软件 » 加 性 能 工具 


同 EDraw Mind Map IS SQL Server Business Intelligence Development Studio 


fü Microsoft SQL Server 2005 d» SQL Server Management Studio 


Æ 7-8 启动 Microsoft Visual Studio 


(2) 关闭 起 始 页 ,选择 “文件 ”新 建 ”一 项 目 ” 命 令 , 打 开 * 新 建 项 目 ? 对 话 框 。 新 建 一 
个 Analysis Services 项 目 , 并 且 在 对 话 框 中 指定 项 目 名 称 和 存放 位 置 ,如 图 7-9 所 示 。 


MARM Œ): ABE D: 
商业 智能 项 目 | Visual Studio 已 安装 的 模板 
由 其 他 项 目 类 型 | 


Analysis Services MA "Integration Services 项 目 
FEA Analysis Services 9.0 .. 周报 表 服务 器 项 目 向 导 
' 闻 报表 服务 器 项 目 辕 报 表 模型 项 目 


_ 我 的 模板 
恒 搜索 联机 模板 . 


| 创建 新 的 Analysis Services ME 
AS QD: [bankloan| 


BED [D: My. DocunentsWisual Studio 2005\projects 


解决 方案 名 称 W : [bank oan 回 


图 7-9 新 建 项 目 


(3) 打开 解决 方案 资源 管理 器 ,查看 已 经 创建 的 解决 方案 , 右 击 “数据 源 ” 项 ,在 弹出 的 菜 
单 中 选择 “新 建 数据 源 " 命 令 , 并 在 数据 源 向 导 界面 单 击 “ 下 一 步 ” 按 钮 ,如 图 7-10 和 图 7-11 
所 示 。 
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欢迎 使 用 数据 源 向 导 


使 用 此 向 导 创 建新 数据 源 。 
esi 

HETTAR PIAF WO EUR Diem 
Lu SEES 请 Pen 


不 再 显示 此 页 GE) 


图 7-10 选择 新 建 数据 源 图 7-11 使 用 数据 源 向 导 
(4) 进入 "选择 如 何 定义 连接 ”, 选 择 * 基 于 现 有 连接 或 新 连接 创建 数据 源 ” 单 选 按钮 , 单 
击 “ 新 建 ” 按 钮 ,如 图 7-12 所 示 。 
国 数 据 源 向 导 


选择 如 何 定义 连接 
您 有 众多 方式 可 以 选择 ， 以 便 数据 源 对 其 连接 宇 符 审 进行 定义 。 


O 基于 现 有 连接 或 新 连接 自 建 数据 源 (CO 
数据 连接 四 ): 


| 


O 基于 另 一 个 对 象 创建 数据 源 凶 ) 


y 必须 选择 一 个 有 效 连 接 。 
< 上 一 步 @) 取消 


图 7-12 定义 连接 


(5) 在 打开 的 “连接 管理 器 ”对 话 框 中 ,选择 “本 机 OLE DB\SQL Native Client" Jil ,选择 
服务 器 名 为 本 机 ,使 用 Windows 身份 验证 登录 ,并 选择 数据 库 名 称 bank, 单 击 “ 确 定 ” 按 钮 ， 


如 图 7-13 所 示 。 
(6) 返回 数据 源 向 导 , 选 中 已 经 建立 连接 的 数据 库 , 单 击 * 下 一 步 ? 按 钮 ,如 图 7-14 


所 示 。 
(7) 选择 分 析 服 务 器 使 用 “使 用 服务 账户 ” 单 选 按钮 ,作为 连接 数据 源 的 凭证 ,并 单 击 
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下 连接 管理 器 


提供 程序 E): | 本 机 OLE DB\SQL Native Client 


g 服务 器 名 D: 


连接 | 登录 到 服务 器 


gw OTH Windows 身份 验证 他 ) 
ag C SRI SQL Server 身份 验证 W 


全 部 


连接 到 一 个 数据 库 


OHRA- TAERE W: 
| 


加 附加 一 个 数据 库 文件 四: 


测试 连接 D) 


图 7-13 设置 连接 管理 器 


7 数据 源 向 导 


选择 如 何 定义 连接 
您 有 众多 方式 可 以 选择 ， 以 便 数据 源 对 其 连接 宇 符 串 进行 定义 。 


数据 连接 属性 D 

E ge [: 
Data Source 
Initial Ca... bank 


Integrated... SSPI 
Provider SQLNCLI.1 


O 基于 另 一 个 对 象 创建 数据 源 A) 


下 - 步 中 > || so» J[ 


图 7-14 返回 数据 源 向 导 


“下 一 步 ? 按 钮 ,如 图 7-15 所 示 。 
(8) 完成 数据 源 的 创建 ,如 图 7-16 所 示 。 
(9) 建立 数据 源 视图 。 数 据 源 视图 提供 一 组 已 经 存在 、 可 浏览 ,持久 化 数据 库 对 象 ( 如 
表 、 视 图 和 关系 )。Analysis Services 中 的 联机 分 析 人 处理 (OLAP) 和 数据 挖掘 对 象 可 以 引 
用 这 些 数据 库 对 象 。 可 以 对 这 些 对 象 进 行 组 织 和 配置 ,以 便 为 数据 源 提供 完整 的 架构 表示 
。72 。 


RE 数据 源 向 导 


模拟 信息 
可 以 定义 Analysis Services 使 用 何 种 凭据 来 这 接 到 | 数据 源 。 


O 使 用 特定 用 户 名 和 密码 O) 


O 使 用 当前 用 户 的 凭据 Q) 


O RUED 


图 7-15 设置 模拟 信息 


司 数据 源 向 导 
= 


向 导 
请 提供 一 个 名 称 ， 然 后 单 击 “ 完 成 ”以 自 孟 新 数据 源 。 


数据 源 名 称 四) 
qum 
mo 


JXBCEHSB: 


Provi der=SQLNCLI. 1;Data Source-. ;Integrated Security-SSPI;Initial Catalog-bank 


图 7-16 完成 数据 源 创建 


形式 。 在 Analysis Services 项 目 或 部 署 数据 库 中 生成 数据 源 视 图 后 ,该 数据 源 视 图 就 可 供 
Analysis Services 中 的 任何 OLAP 或 数据 挖掘 对 象 使 用 。 创 建 数据 源 视 图 的 方法 同 创建 
数据 源 相同 ,使 用 资源 管理 器 中 的 右键 菜单 ,如 图 7-17 所 示 。 

(10) 单 击 “ 数 据 源 视图 向 导 ” 对 话 框 的 “下 一 步 ” 按 钮 ,为 数据 源 视图 选择 数据 源 , 如 
图 7-18 所 示 。 

(11) 为 数据 源 视图 选择 表 或 视图 ,这 里 选择 在 数据 准备 工作 中 建立 的 表 t_dm, 如 图 7-19 
所 示 。 

(12) 完成 数据 源 视图 建立 ,并 命名 , 单 击 “ 完 成 ”按钮 ,如 图 7-20 所 示 。 

(13) 回 到 Visual Studio 主 界面 , 右 击 项 目 Neutral Network 下 的 “挖掘 结构 ”选择 “新 
建 挖掘 结 构 ” 项 ,打开 “数据 挖 气 向导” 对话 框 , 单 击 “ 下 一 步 ” 按 钮 ,切换 到 “选择 定义 方法 ”页 
面 , 单 击 “ 下 一 步 ” 按 钮 ,切换 到 “选择 数据 挖掘 技术 ”页 面 。 

EE 
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选择 数据 源 
选择 现 有 的 关系 数据 源 ， 或 新 建 一 个 关系 数据 源 。 


数据 源 尾 性 QD: 


属性 

Data Source 
Initial Ca 
Integrated . 
Provider 


AGREES 


T-—EQD» 


图 7-17. 选择 新 建 数据 源 视图 


E 数据 源 视图 向 导 
选择 表 和 视图 
从 要 包 合 在 数据 淹 视图 中 的 关系 数据 库 中 选择 对 象 ， 


TAHRA: 


| 名 称 

加 dbo. 贷款 余额 表 

O abo. 客户 基本 情况 表 
C] abo. 分 行 代码 表 


iB D | 


回 


显示 系统 对 象 @) 


图 7-19 选择 表 和 视图 


蛋 数 据 源 祝 图 向 导 


请 提供 一 个 名 称 ， 然 后 单 击 “ 完 成 ”以 包 陡 新 数据 源 六 图. 


ERW 
mm 


BEO: 


S e Bank 
E dbo. t dn 


图 7-20 完成 数据 源 视 图 建立 


(14) 如 图 7-21 所 示 ,在 下 拉 列 表 框 中 选取 “Microsoft 神经 网 络 ” 选 项 , 单 击 “ 下 一 步 ” 按 
钮 ,切换 到 下 一 个 页 面 。 


选择 数据 控 据 技术 
选择 对 于 您 正 执 行 的 分 析 类 型 来 说 最 适用 的 数据 挖掘 技术 。 


悠 要 使 用 何 种 数据 挖 据 技 术 (TD? 
Microsoft 神经 网 络 
说 明 : 


Microsoft 神经 网 络 算法 使 用 梯度 法 来 忧 化 多 层 网 络 的 参数 ， 以 预测 多 个 属性 。 它 可 以 用 
于 离散 属性 的 分 类 和 连续 属性 的 回归 。 


[<t-50 || F— 上 (WY | 
图 7-21 选择 神经 网 络 挖掘 技术 
(15) 如 图 7-22 所 示 ,在 “选择 数据 源 视图 ”页 面 的 “可 用 数据 源 视图 ”列表 中 显示 了 前 
面 步骤 创建 的 bank 数据 源 视图 ,选中 该 视图 选项 , 单 击 “ 下 一 步 ” 按 钮 ,切换 到 下 一 个 页 面 


选择 数据 源 视图 
选择 为 挖掘 结构 提供 数据 的 数据 源 视 图 。 


可 用 数据 源 视 图 (和 A); 


|«-E-5) || 下 一 步 (| 


7-22 选择 数据 源 视图 


(16) 如 图 7-23 所 示 , 在 “指定 表 类 型 "页 面 中 可 以 看 到 bank 数据 源 视图 包含 的 数据 
表 , 选 中 t_dm 选项 右边 的 “事例 ” 复 选 框 ,可 以 将 其 定义 为 事例 表 ; 单 击 “ 下 一 步 ” 按 钮 切换 
到 下 一 个 页 面 。 

(17) 如 图 7-24 所 示 ,在 “指定 定型 数据 ?页面 显示 了 挖掘 模型 结构 ,在 各 个 选项 右边 选 
中 不 同 的 复 选 框 ,可 参照 表 7-1 完成 ,然后 单 击 “下 一 步 ? 按 钮 ,切换 到 下 一 个 界面 。 

(18) 如 图 7-25 所 示 , 经 过 “检测 ?将 指定 数字 列 , 即 “次 级 ”"“ 关 注 ?“ 可 疑 ?"“ 损 失 ”“ 余 
额 * 和 “正常 "的 连续 值 转换 成 离散 值 , 即 0 或 1 ,与 数据 处 理 结果 对 应 起 来 。 在 “指定 列 的 内 容 
和 数据 类 型 ”页面 中 显示 了 指定 ID 的 内 容 类 型 为 Key, 余 额 ” 的 内 容 类 型 为 Continuous, 其 余 


e dE 


A 数据 挖 握 
指定 表 类 型 


EE 


指定 分 析 时 要 使 用 的 表 类 型 。 


A SHORTER 191] 


指定 定型 区 据 
指定 分 析 中 所 用 的 列 。 


挖掘 模型 结构 (5), 


H dl tdm 


法 人 资格 
关注 
SHEA 


[et] | -下 一 步 岂 | 


图 7-23 指定 表 类 型 


Im] SAA imi 可 


n o 
a] [4 
m 口 
[-4 口 


m 
o 
o 


为 当前 选 定 的 可 预测 内 容 提 供给 入 建 说 : 


sE oo | | T—5« || mo» || mih 


图 7-24 指定 定型 数据 
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指定 列 的 内 容 和 数据 类 型 
ETERNON TRER. £ ^ 
REEMS: 
-- — ÁHÀ - PU E e — oL AFEN MERN 
ar eer nd 
m ow Discrete. Double. 
E ARE Dsctete. Double 
m xk Decet Double 
Gp eR Deaete Double 
m o Decrcte Double 
G 客户 类 型 Continuous 。 Douhle 
国 ses Contmuous  Doutie 
E RXR Continuous 。 Double 
国 损失 Deaete Double 
m 4m Continuous — Double 
D 正常 Discrete. Double 
国王 点 标志 Dscrete Double 
GET ASI RR IHR 


[sacan] | Tun] aoa] [mik 


图 7-25 指定 列 的 内 容 和 数据 类 型 


列 内 容 类 型 均 为 Discrete; ID 的 数据 类 型 为 long, 其 余 各 列 数据 类 型 均 为 Double, 单 击 “ 下 一 
步 ” 按 钮 切换 到 下 一 页 面 。 


(19) 如 图 7-26 所 示 ,在 “完成 向 导 ” 页 面 中 将 数据 挖掘 结 构 命 名 为 t_Dml, 单 击 “ 完 成 ” 
按钮 ,完成 挖掘 结构 的 创建 。 


攻 ISLSE 


完成 向 导 
为 挖掘 结构 提供 名 称 ， 从 而 完成 数据 挖掘 向 导 。 


挖 气 结 构 名 称 (M); 
t Dml 


挖 所 模型 名 称 (D); 


O FARD 


|< t0 | 


7-26 完成 挖掘 结构 创建 


(20) 单 击 “挖掘 准 确 性 图 表 ? 选 项 卡 下 的 “提升 图 ”和 ”分 类 和 矩阵”, 其 结果 如 图 7-27 和 
图 7-28 所 示 。 


(D) BEFA EERW MAD IAD FOW HEO MHD 
b peveopment - $3 X EDI. 
it] | Bankedey [设计 ] | Bank ldsv [iit] `t Dmi -dmm [设计 ] 起 好 页 | ~ x IE FEES 
| A EAN |Ò 控 据 模型 查看 器 | 近 扼 准确 性 辐 表 | CERLA ug | 
J, Analysis Services 项 目 3 | 
[spei 提升 图 | geo] LIUL 


= de Bankd 
BERN EE ) (à) ed 


dm Am) 项 生成 (8) 


a 
挖掘 结 构 的 数据 挖掘 提 升 图 : t Dal «Li Bank dev 


LE -IX 
总 体 百分比 : 69.00% 


| mALIRH 2m o5. SE 
lg com 0.94 (35. 93,69% 
u 理想 模型 69.0. 


| [3] 
FRH EREN 


ne 
ma 


图 7-27 查看 提升 图 


a 


本 Analysis Services 项 目 了 - Microsoft Visual Studio 


Xp RAD WAV MEO HO GERD) SEFA EERHW MMO IAD FOW 社区 (CO EHW 


CM TEELE “ -|> [bovi IFR- 
i i Dmi dmm 5E], ERERT | = 
D ESD | 人、 控 据 模型 |À PERLSES |A EPERE |v rema |a 
x 加 Analysis Services 项 目 3 
pui [are ae | EEA 
[zx] z || EI 
[ia] ARTERNE FERE: NEF | 
2 Bankeds 
RARO E t ml iR $ Bank 1 
EZ] 0 GER 1 RED W i 
o "m zo hae 
D A t Dm.dnr 
A tmi dmm. 
角色 
EI 
|| - 2m 


Tiras] 
at 
7-288 查看 分 类 和 矩阵 


在 图 7-27 中 的 下 方 线 代 表 神 经 网 络 建立 的 预测 模型 ,上 方 线 代 表 实 际 模型 ,可 以 看 出 
两 者 是 基本 匹配 的 ,说 明 预 测 模型 比较 理想 ;在 图 7-28 中 ,对 ”次 级 =]1 的 预测 结果 是 无 差 
错 的 ,对 “次 级 ”三 0 的 预测 结果 有 7.9% 的 误差 。 


7.4 案例 小 结 


在 本 章 案 例 中 ,首先 针对 性 地 获得 了 电子 数据 ,然后 通过 事实 数据 表 的 有 效 数据 项 的 选 
取 构 建 了 待 挖 掘 数据 集 ,根据 现实 情况 ,选取 了 与 信贷 分 级 关系 密切 的 数据 项 ;:“ 客 户 名 
称 ”“ 客 户 类 型 "“ 经 济 性 质 *“ 素 属 关 系 ”“ 关 注 ”“ 法 人 资格 ”“ 客 户 状态 ”和 “重点 标志 ” 
作为 输入 列 ,将 信贷 5 个 等 级 作为 输出 列 ,通过 Microsoft 神经 网 络 模 型 分 析 输 入 与 输出 的 
关联 ,对 现 有 数据 进行 了 等 级 分 析 。 这 是 整个 挖掘 的 思路 和 过 程 。 

特别 指出 ,利用 神经 网 络 模型 进行 挖掘 时 ,必须 对 非 数值 数据 进行 适当 数值 化 处 理 。 另 
外 ,无 论 使 用 哪 种 模型 ,对 原始 数据 库 进 行 预 处 理 都 是 必须 的 ,而 且 往 往 能 影响 挖掘 结果 。 
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实例 8 基于 K-means 方法 的 梳子 花 聚 类 分 析 


8.1 任务 描述 


有 采集 到 的 150 条 板子 花 的 数据 如 表 8-1 所 示 ,每 洒 枯 子 花 给 出 了 4 个 属性 值 ,分 别 为 
3& H- HE (Sepal Length) , 3€ H SEJE (Sepal Width) , 4E 3 K J£ (Petal Length) Al 4E 38 3 JE 
(Petal Width), Cil 150 24g TIES Ji — RIS [8] B9 28789 . FI CR 12: d P EJ. K-means 方法 判 
断 哪 些 板 子 花 属于 同一 类 型 。 
表 8-1 柜子 花 数据 


sepallength | sepalwidth | petallength | petalwidth 
Bumeric Numeric 了 americ 了 meric 


8.2 技术 原理 


聚 类 的 任务 是 把 所 有 的 实例 分 配 到 若干 的 篮 , 使 得 同一 个 篮 的 实例 聚集 在 一 个 簇 中 心 
的 周围 ,它们 之 间 的 距离 比较 近 ; 不 同 簇 实例 之 间 的 距离 比较 还 。 对 于 由 数值 型 属性 刻画 的 
实例 来 说 ,这 个 距离 通常 指 欧 氏 距 离 。 

聚 类 分 析 的 方法 很 多 ,其 中 包括 基于 划分 的 聚 类 方法 、 基 于 层次 的 聚 类 方法 、 基 于 密度 
的 聚 类 方法 、 基 于 网 格 的 聚 类 方法 和 谱 取 类 方法 等 。 

K-means 方法 是 一 种 基于 划分 的 聚 类 方法 。 其 核心 思想 是 通过 和 迭代 把 数据 对 象 划分 
到 不 同 的 簇 中 ,以 求 目标 函数 最 小 化 ,从 而 使 生成 的 簇 尽 可 能 地 紧 次 和 独立 。K-means 方 
法 的 具体 划分 过 程 是 ,首先 ,随机 选取 个 对 象 作为 初始 的 k 个 簇 的 质心 ;然后 ,将 其 余 对 
象 根 据 其 与 各 个 簇 质心 的 距离 分 配 到 最 近 的 簇 ;最 后 ,再 求 新 形成 的 簇 的 质心 。 如 此 过 
代 、 重 定位 ,尝试 通过 对 象 在 划分 之 间 的 移动 来 改进 划分 。 图 8-1 所 示 为 K-means 方法 的 
ERE. 
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图 8-1 K-means 迭代 示例 


8.3 具体 实现 


CD 选择 “开始 ”一 “所 有 程序 ”>Weka 3. 6. 5— Weka 3. 6 命令 ,如 图 8-2 所 示 。 


| 回 Microsoft Office 
Md Windows Install Clean Up Æ) Docunentation 
] C) MathType 5 (9 Uninstall Weka 3.6.5 
c) 其 酮 软件 
| fh Weka 3.6.5 Q "eka 3.6 (with console) 
(E) Microsoft Silverlight 
IB] 癌 Microsoft SQL Server 2005 


8-2 打开 Weka 软件 


(2) 单 击 Explorer 按钮 ,如 图 8-3 所 示 。 


($i Yeka GUI Chooser 
Program Visualization Tools Help 
Applications 
WEKA 
The University 
of Waikato 


Experimenter 


Waikato Environment for Knowledge Analysis KnowledgeFlow 
Version 3.6.5 

(e) 1999 - 2011 
The University of Wailmto Simple CLI 


Hamilton, New Zealand L ——À 


图 8-3 打开 Explorer 应 用 


(3) 单 击 Open file 按钮 ,在 弹出 的 对 话 框 中 选择 要 打开 的 文件 iris. arff, 并 单 击 “打开 ” 
按钮 ,如 图 8-4 所 示 。 

(4) 在 如 图 8-5 所 示 的 界面 中 ,可 以 知道 Iris 数据 集中 共有 150 个 实例 ,每 个 实例 有 5 
个 属性 。 选 中 某 个 属性 ,可 以 查看 150 个 实例 关于 这 个 属性 的 属性 值 的 最 小 值 . 最 大 值 25] 
值 和 标准 差 等 信息 。 然 后 单 击 Cluster 标签 。 

(5) 单 击 Choose 按钮 ,如 图 8-6 所 示 。 
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(*)Weka Explorer 


Preprocess 


SE: 站 数据 仓库 与 数据 挖 氟 工 程 实例 


Cj SülServer 2005 dev &Il dvi 
ir 


Attributes 


iris arff 


Arff data files (+. arff) 


人 e 
图 8-4 打开 数据 文件 


Tyeka Explorer 


Preprocess |Classify| Cluster | Associate] Select attributes] Visualizel 


[om fine. Open WRL [Loren ns. Generate. 


Filter 


Cese J [m 


Current relation Selected 


Relation: iris L Type: Noneric 
Instances: 150 Missing 0 (D) Unique: 5 OV) 


Attributes Statistic 
Minimum 
Maximum 
Mean 

[stan 


Class: class Olon) 


图 8-5 查看 数据 特征 


ss| Classi fy| Cluster | Associate] Select attributes| Visuslize| 
Clusterer 
EM -I 100 -N -1 -Ħ 1.0E-6 -S 100 


Cluster mode Clusterer output 
© Use training set 
O Supplied test set 


O Percentage split 
O Classes to clusters evaluation 


[Z]Store clusters for visualization 


Ignore attributes 


Start 


Result list (right-click for options) 


图 8-6 打开 聚 类 方法 选取 界面 


(6) 选择 SimpleKMeans 聚 类 方法 ,并 单 击 Close 按钮 ,如 图 8-7 所 示 。 


(@ Feka Explorer 


Select attributes | Visualize|- 


Clusterer 


Dreka deanDistance -R first-last" -I 500 -5 10 
BD clusterers 


Clusterer output 


FarthestFirst 
Filteredlusterer 
NiererchicalClusterer 
Makelensi tyBasedZlusterer 
OPTICS 


*. 
*. 
LI 
. 
. 
. 
. 
. 
. 
. 
. 
. 


图 8-7 选择 聚 类 方法 


(7) 单 击 Choose 按钮 后 的 SimpleK Means 聚 类 方法 ,弹出 参数 设置 框 ,如 图 8-8 所 示 。 


2778 Explorer 
| Preprocess | Classify| Cluster | Associate| Select attributes | Visualize! 


Clusterer 


[Choose |Sinplelleans -N 2 -A “weka. core. EuclideanDistance -R first-last^ -I 500 -S 10 


Cluster mode - 
© Use training set iii ER B ERN 
O Supplied test sei "eke aasterers Sinplelleans 


Orasan I 


O Casses to clust Cluster data using the k means algorithm. 


[Z]Stere clusters fo 


displayStdDevs |False 


distanceFunction [ Choose EuclideanBistance -R first-last 


dontReplacelissingVslues |False 


Result list (right- 
C(—' maxIterations |500 


maClusters [2 - 


preserveInstancesÜrder |False 


seed |10 


(Cus JI 


Status 
ok 


图 8-8 进行 参数 设置 


(8) 对 聚 类 方法 的 参数 进行 设置 ,其 中 numClusters 设置 为 3, 并 单 击 OK 按钮 ,如 
图 8-9 所 示 。 
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[ea weka. gui.GenericObjectEditor 
weka. clusterers.SimpleKMesns 
About 


Cluster data using the k means algorithm. 


displayStdDevs |False v 


distenceFunction | Choose |EuclideanDistance -R first-last 


dontReplaceMissingValues | 了 alse 


maxTterations | 


namclusters | 


preserveInstancesÜrder 


seed 


Üpen.. Save... 0K Cancel 


图 8-9 ig EB ER 


(9) 选中 Classes to clusters evaluation 复 选 框 , 并 将 数据 集中 的 class 属性 作为 用 来 评 
佑 聚 类 效果 的 聚 类 属性 ,如 图 8-10 所 示 。 


(fi Weka Explorer 


| Preprocess| Classify] Cluster | Associate] Select attributes| Visuslize| 


Clusterer 
[Choose _|SimpleKMeans -W 3 -A “weka core. EuclideanDistance -R first-last" -I 500 -0 -S 10 


Cluster mode 

O Use training set 

O Supplied test set 

O Percentage split 

(S) Classes to clusters evaluation 
(Nom) class 

m) sepallength 

Oum) sepalwidth 

Aum) petallength 

(Num) petalwidth 


Result list (right-click for options) 


Status 
OK 


图 8-10 设置 评估 属性 
(10) 单 击 Ignore attributes 按钮 ,在 弹出 的 对 话 框 中 选择 class 属性 ,并 单 击 Select 按 
钮 ,如 图 8-11 所 示 。 


(11) 单 击 Start 按钮 ,Weka 对 Iris 数据 集 执 行 KMeans 算法 ,如 图 8-12 所 示 。 
(12) 在 算法 的 执行 结果 中 给 出 了 算法 一 共 迭 代 了 6 次 ,同时 给 出 了 3 个 簇 中 心 的 各 个 
属性 值 ,如 图 8-13 Bron. 
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7 Yeka Explorer 


Preprocess | Classify] Cluster | Associate| Select attributes | Visuslize| 


Clusterer 
[Choose |SimplekMeans -N 3 -A “weka core. FuclideanDistance -R first-last” -I 500 -0 -S 10 


Cluster mode Clusterer output 


OUse training set 
O Supplied test set 


O Percentage split 
© Classes to clusters evaluation 


Oom) class 


回 Stere clusters for visualization 


P Select iteas 


Igore attribut 


Start 


Result list (right-click for options) 


图 8-11 设置 忽略 属性 


[LEheese。]simplemleans -N 3 -A “weka core. EuclideanDistance -R first-last” -I 500 -0 -S 10 


Cluster mode Clusterer output 


O Vse training set === Run information === 


O Supplied test set Scheme:veka. clusterers. SinpleKMeans -N 3 -A "veka. core. Eucli 
Relation: iris 

Instances:150 

Attributes:5 


O Percentage split 


sepallength 
sepalvidth 
petallength 
petalvidth 


Ignore attributes Ignored: 


class 


Stet Test mode;Classes to clusters evaluation on training data 


Result list (right-click for options) Modex; and. evalnarUmon training pet 

EE Tr 
Number of iterations: 5 
Within lastet sum of square errora 6:9901140048267605 
Missing values globally replaced with mean/mode 


图 8-12 执行 聚 类 算法 


*)Weka Explorer 


Preprocess| Classi fy| Cluster | Associate | Select attributes] Visualize) 
Clesterer 


(Choose JSinpiekneens -N 3 -A “weka core. EuclideunDistance -R first-last" -I 500 -0 -S 10 


Cluster mode Clusterer output 


OO Use. training set class 
AI SE Test mode:Classes to clusters evaluation on training data 
A === Model and evaluation on training set === 


O Percentage split 
Q Classes to clusters evaluation 


| Ofon) class 


[Z]Store clusters for visualization 

Number of iterations: 6 

Within cluster sum of squared errors: 6.9981140048267605 
Missing values globally replaced with mean/mode 


Igore attributes 


Start 


Cluster centroids: 
Result list (right-click for options) Cluster 
Attribute Full Data 0 

(150) (61) 
sepallength 5.8885 
sepaluidth 2.7377 
petallength 4.3967 
petalwidth 1.418 


€ 


图 8-13 PLEAR 


(13) 在 算法 的 执行 结果 中 还 给 出 了 每 个 簇 所 含 实例 的 个 数 以 及 占 全 体 实 例 的 百分比 。 
在 已 知 标准 聚 类 结果 的 前 提 下 ,算法 的 执行 结果 还 能 给 出 标准 复 和 通过 算法 得 到 的 复 之 间 
的 对 应 关系 ,以 及 整个 聚 类 结果 的 错误 率 , 如 图 8-14 所 示 。 


(f Weka Explorer 


freprocess| Classify| Cluster | Associate| Select attributes | Visualize 


Clusterer 


Choose |SimpleKMeans -N 3 -À “weka core. EuclideanDistance -R first-last" -I 500 -0 -S 10 


Cluster mode Clusterer output 


O Use training set Clustered Instances 
O Supplied test set 

0 61 ( 415) 
O Percentage split l à 50 ( 33%) 
(Classes to clusters evaluation 2 39 ( 265) 


| (Nom) class Y 


Store clusters for visualization Class attribute: class 
Classes to Clusters: 


[ Igore attributes 


0 1 2 <-- assigned to cluster 


Start 0 50 0 | Iris-setosa 


47 0 3 | Iris-versicolor 
Result list (right-click for options) 14 036 | Iris-virginica 


Cluster 0 «-- Iris-versicolor 

Cluster 1 «-- Iris-setosa 

Cluster 2 «-- Iris-virginica 

Incorrectly clustered instances : 11.3333 + 


》 


EX" 


8-14 继续 进行 结果 分 析 


(14) 为 了 观察 可 视 化 的 聚 类 结果 ,在 左下 方 Result list 列 出 的 结果 上 右 击 , 在 弹出 的 
菜单 中 选择 Visualize cluster assignments 项 ,如 图 8-15 所 示 。 


[2 578 Explorer 
| Preprocess | Classify| Cluster | Associate | Select attributes Visualize! 


Clusterer 


[Cehoose JSimpleleans -N 3 -A “weka. core. Euchi deanDistance -R first-last" -I S00 -S 10 


Cluster mode Clusterer output 


(S Use training set | Within cluster sum of squared errors: 7.817456892309574 
O Supplied test set | Missing values globally replaced with nean/mode 


O Percentage split | Cluster centroids: 


O Classes to clusters evaluation Cluster 
| Attribute 


|Store clusters for visualization 


sepallength 


[o dmere attributes 0 ] |zepelviam 


| petallength 


nima 


| class Iris-setosa Iris-versicolor 
Result list (right-click for options) 


View in main window 
View in separate window 
Save result buffer 
Delete result buffer 


Losd model 
Save model 


Status 
OK 


图 8-15 选择 可 视 化 聚 类 结果 


(15) 在 弹出 的 可 视 化 结果 对 话 框 中 ,可 以 查看 实例 、 属 性 值 和 簇 之 间 的 对 应 关系 ,如 
图 8-16 所 示 。 


图 Feka Clusterer Visualize: 21:58:11 — SiapleKHe--- BENE 


v || Y:sepallength (Num) Y 
Colour:Cluster (Nom) M.||Select Instance {v 
CL Lasse] 


Plot:iris clustered 


Class colour 


clusterO clusterl 


图 8-16 浏览 可 视 化 结果 


(16) 在 可 视 化 结果 对 话 框 中 , 单 击 Save 按钮 ,将 结果 保存 在 irisKMeans. arff 文件 中 ， 
如 图 8-17 所 示 。 


图 Feka Clusterer Visualize: 21:58:11 — SimpleKNe... 攻关 |] 几 | 


X Instance number (Num) |1: sepallength (un) 


Colour:Cluster (Non) [Select Instance 
£0 pes J oe JE] 


Plot:iris clustered 


Class colour 


clusterO clusterl 


8-17 保存 可 视 化 结果 


(17) Æ Weka Explorer 界面 中 打开 irisKMeans. arff 文件 ,instance_number 属性 表示 
某 实 例 的 编号 ,Cluster 属性 表示 到 类 算法 给 出 的 该 实例 所 在 的 徐 , 如 图 8-18 所 示 。 
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Preprocess | Classify| Cluster | Associate| Select attributes| Visualize! 


[open tile-，][ open mn. ) (open m... JE Generate... |[ — wae ] ait Save... 
Filter e 
Choose |NongRelation: iris clustered Apply 
Instence number | sepsllength | sepalwidth | petallength | petalwidth| class | Cluster 
Current relatio americ Tamer: americ seri americ Nominal emiaal 
Relation: iridft 0.0) 5.1 3.5 1.4 O.2Iris-setesa cluster] | Afic 
Instances: 150]2 1.0 49 3.0 1.4 O.2Iris-setosa — |clusterl 00%) 
人 2.0 AT 3.2) 1.3 O.2lIris-setosa |clusterl pen 
n 3.0 46 3.1 1.8 O.2lIris-setosa  |clusterl 
[5 4.0| 5.0 3.6 1.4| 0.2Iris-setosa  |clusterl 2M 
e 5.0| 5.4 3.9| 1. 7| D.4Iris-setosa  |clusterl ——3 
ToT 6.0! 46 3.4| 1.4| D.3Iris-setosa  |clusterl ———31 
CLE E e 7.0| 5.0| 3.4 1.5| D.2Iris-setosa  |clusterl 一 一 一 
la 8.0 44 2.9) 1.4 O.2lIris-setosa — |clusterl 
2[]sesfto 9.0 48 34 1.5 O.llris-setosa — |clusterl 
3E]: 10.0 5.4 31 1.5 O.2lIris-setosa |clusterl 
slo 11.0 48 3.4 1.8 O.2lIris-setosa |clusterl TET 
sLledis 12.0 48 3.0 1.4 O.llris-setosa — |clusterl 
GECE fy 13.0 43 3.0 1d O.llris-setosa — |clusterl 
了 15 14.0 5.8 4.0 1.2 O.2lIris-setosa — |clusterl 
16 185.0 5T 44 1.8 O.4Iris-setosa — |clusterl 
1T 16.0| 5.4 3.9| 1.3| O.4Iris-setosa  |clusterl 
18 17.0| 5.1 3.5| 1.4| 0.3Iris-setosa  |clusterl 
19 18.0 5.7 3.8 1. O.3Iris-setosa — |clusterl 
20 19.0 5.1 3.8 1.5 O.3Iris-setosa — |clusterl 
21 20.0, 5.4 3.4 1. O.2Iris-setosa — |clusterl 
22 21.0) 5.1 3.7 1.5 O.4Iris-setosa — |clusterl 
23 22.0) 46 3.6) 1.0 O.2lIris-setosa — |clusterl T 
TE 24 23.0) 5.1 3.3] 1.7] O.SlIris-setesa |duste] | wb 


ur mà no 
图 8-18 :- S^ 3c BIB dE SR 


8.4 案例 小 结 


聚 类 是 数据 挖 据 中 常见 的 挖掘 任务 之 一 。K-means 是 聚 类 方法 中 一 种 简单 而 有 效 的 方 
法 ,被 评 为 数据 挖掘 中 的 十 大 算法 之 一 。 本 案例 利用 Weka 软件 ,采用 K-means 方法 ,实现 
了 对 橘子 花 数 据 的 自动 聚 类 ,取得 了 较 好 的 效果 。 在 Weka 软件 中 还 提供 了 若干 其 他 聚 类 
方法 ,读者 可 在 橘子 花 数据 集 上 检验 其 他 聚 类 方法 的 可 行 性 。 另外, 如何 自动 确定 聚 类 中 簇 
的 数目 ,在 聚 类 算法 研究 中 至 今 没有 取得 满意 的 答案 。 
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实例 9 基于 线性 回归 方法 的 汽车 油耗 预测 分 析 


9.1 任务 描述 


采集 到 的 398 辆 汽车 的 数据 ( 取 自 1970 一 1982 年 ) 如 表 9-1 所 示 , 每 辆 汽车 给 出 了 8 个 
属性 值 ,分 别 为 汽 氏 (cylinders) 、 排 量 (displacement)、 马 力 (horsepower) , Œ (weight) 加 
速度 (acceleration) , 4F.[jj (model) 、 产 地 (origin) 及 油耗 (class)。 请 创建 一 个 能 基于 汽车 的 
几 个 特性 来 推测 其 油耗 (每 加 仑 英里 数 ,MPG) 的 回归 模型 。 


表 9-1 采集 的 有 关 汽车 数据 


cylinders | horsepower EET ERES model HE 

Nominal Homeric 了 americ 了 americ Homeric Nominal | Nominal | Numeric 
B 307.0| 130.0| 3504.0 iom li 18.0 
B 350. 0| 165.0| 3683.0 usro — | 15.0 
B 318.0| 150.0| 3438.0 iom — 18.0 
B 304. 0| 150.0| 3433.0 12.070 — (| 16.0 
B 302. 0| 140.0| 3449.0 10.50 — |i 17.0 
B 429.0|  195.0| 4341.0] 10.070 — | 15.0 
8 454.0| 220.0| 4354.0 som lt 14.0 
8 440.0| 215.0| 4312.0 &sm | 14.0 
8 455.0| 225.0| 4425.0 10.070 — (| 14.0 
B 390. 0| 190.0| 3850.0 &sm | 15.0 
B 383.0| 170.0| 3563.0 10.070 — (| 15.0 
B 340.0| 160. 0| 3809.0 soro li 14.0 
B 400. 0| 150.0| 3761.0 asho lt 15.0 
B 455.0|  225.0| 3086.0 inomo — (| 14.0 
a 113.0| — $5.0 2372.0| iom b | 240 
3 198.0| 95.0| 2833.0| 15.570 — | 22.0 
3 199.0| 9T.0| 2774.0 15.570 — | 18.0 
n 200. 0| 85.0| 2587.0 16.070 — | 21.0 
4 9T. 0| 88.0| 2130.0 14.570 — B 27.0 
4 97.0| 46.0| 1835.0 20.570 lz 26.0 
4 110.0| 87.0| 2672.0 17.570 — p 25.0 
a 107.0| 90.0| 2430.0 14.5|70 2 24.0 
4 104.0| 95.0| 2375.0 insmo 2 25.0 
4 121.0] 113. 0| 2234.0 12.570 P 26.0 


9.2 技术 原理 


回归 分 析 是 研究 变量 之 间 相 关 关 系 的 一 种 统计 推断 法 。 回 归 分 析 , 是 指 在 相关 分 析 的 
基础 上 ,把 变量 之 间 的 具体 变动 关系 模型 化 , 求 出 关系 方程 式 , 即 一 个 能 够 反映 变量 间 变 化 
关系 的 函数 关系 式 , 并 据 此 进行 估计 和 推算 。 通 过 回归 分 析 , 可 以 将 相关 变量 之 间 不 确定 、 
不 规则 的 数量 关系 一 般 化 .规范 化 ,从 而 可 以 根据 自 变 量 的 某 一 个 给 定 值 推断 出 因 变 量 的 估 
计 值 。 根 据 所 涉及 变量 的 多 少 不 同 ,回归 分 析 可 分 为 一 元 回归 和 多 元 回归 。 

假设 一 个 随机 变量 Y 与 m 个 非 随机 变量 Xi. Xo ,…,Xw 之 间 存 在 线性 相关 关系 , 则 它 
们 之 间 的 关系 可 以 用 以 下 线性 回归 模型 来 表示 

Y-&--A&Xic-gX;--aX.e 
其 中 ,Y 是 因 变 量 , X;(i 二 1,2,…,m) 是 自 变量 , B.(i 二 0,1,2,…,m) 是 模型 的 参数 , 称 为 偏 
相关 系数 ;e 是 随机 误差 。 
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回归 参数 BCi 二 0,1,2,…,m) 的 估计 方法 是 最 小 二 乘法 。 根 据 样本 数据 (y, zj， 
aj in sz) 来 估计 忆 (i 二 0,1,2,…,m) 时 要 使 得 产生 残 差 的 平方 和 为 
Q= y —5*-— Dy R Hary HeH pet T (9-1) 
取 极 小 值 。 为 此 ,对 Q 分 别 求 B.C 二 0,1,2,…,m) 的 偏 导数 ,并 令 其 等 于 零 ,由 此 可 以 得 到 
mtl. 


2Q — 2X [y — (& - Bin Rer] —0 
9B, j=1 
IQ 3 | loe 一 
Ip 2 2 lys Ee Wi (9-2) 
7. =— 2 D i-i t te = 0 
C Pm j=1 
整理 后 可 得 方程 组 
npt nu xs — iy 
j=1 了 一 1 j=1 
> yzupo T Nisi qose eq 2 hits. = Muy; 
— £i e per (9-3) 


, i , 
p Ej a= 

DzwbBo + X tmth + + D typa = 2) zmy; 

j=1 j=1 iml j=l 


对 于 自 变量 Xi ,Xs,…,X, MARE Y JU n 组 观察 数据 。zx 表 示 自 变量 X: 的 第 
k 次 观察 值 ,y; 表示 因 变 量 Y 的 第 i 次 观察 值 。 令 


b= De (i = lym) 


lo = X, (ta ~ zi) yy) GG=1,2,m) lo = X (y) 
k=1 =i 


则 回归 系数 8 (一 0,1,2,…,m) 可 以 由 方程 组 求 出 
luB E li; Tob. = eo 
In fy EE laf F eee F lom = Lzo 


(9-4) 


lm fh T lm f aa du 


9.3 具体 实现 


COD 依次 单 击 “开始 ”一 所 有 程序 ”~Weka 3.6. 5— Weka 3. 6, 如 图 9-1 所 示 。 
(2) 单 击 Explorer 按钮 ,如 图 9-2 所 示 。 
© gge 


Adobe Keader X 


加 Microsoft Office 


B Internet Explore 人 Windows Install Clean Up Æ) Docunentetion 
(£j) MathType 5 Q9 Uninstall Weka 3.6.5 


LULLISN a ee Fi 


6 
Q Yaka 3.6 (with console) 


E Microsoft Silverlight 


E 73) Microsoft SQL Server 2005 


图 9-1 打开 Weka 软件 


(*)Weka GUI Chooser 
Program Visualization Tools Help 


WEKA 


The University 
of Waikato 


Applications 


Wailmte Environment for Knowledge Analysis 
Version 3.6.5 

(e) 1999 - 2011 

The University of Wailmto 

Hamilton, Wew Zealand 


图 9-2 打开 Explorer 应 用 


(3) 单 击 Open file 按钮 ,选择 要 打开 的 文件 autoMpg. arff ,并 单 击 “ 打 开 ” 按 钮 ,如 
图 9-3 Bro 。 


[7iWaka Explorer 


: [Eo bs 线性 回归 


Current relation 


Relation: None Type: None 
Instances: None hique: None 


Attributes 


桌面 


我 的 文档 


3 


我 的 电脑 


文件 各: autollpg. arff 
网 上 邻居 — 文件 类 型 | 人 ff data files (arff) 


Status 
Welcome to the Weka Explorer 


图 9-3 打开 数据 文件 


(4) 在 如 图 9-4 所 示 的 界面 中 ,可 以 知道 autoMpg 数据 集中 共有 398 个 实例 ,每 个 实例 
有 8 个 属性 。 选 中 某 个 属性 ,可 以 查看 398 个 实例 关于 这 个 属性 的 属性 值 的 最 小 值 . 最 大 
值 .均值 和 标准 差 等 信息 。 
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(SiWeka Explorer 


Preprocess | Classify | Cluster| Associate | Select attributes Visualize 


Open file... | [Open wL Open DE... |[ Generate. Sare. 


Filter 


Choose | Apply 


Current relation Selected attribute 


Relation: eutolMpg Nane: class Type: Numeric 
Instances: 398 Attributes: 8 Missing: 0 (DX) Distinct: 129 Unique: 73 (189) 


Attributes | Statistic Value 
Minimum 9 
Maximum 46.6 
Mean [23.515 
StdDev |T.816. 


[ ]eylinders 
displacement 
[horsepower 


[reier Class: class Oun) Visuslize All 
[acceleration 2: iud 


Status 


DK 


9-4 查看 数据 特征 


(5) 选择 Classify 标签 ,并 单 击 Choose 按钮 ,如 图 9-5 所 示 。 


(Yeka Explorer 
Preprocess| Classify | Cluster Associate | Select attributes | Visualize 
Classifier 
se Jeren 
Test options Classifier output 
O Use training set | 
O Supplied test set 
(Cross-validation Folds 10 
O Percentage split 


More options 


(fum) class v 


Start 


Result list (right-click for options) 


Status 


DK 


9-5 选择 Classify 标签 


(6) 选择 LinearRegression 方法 ,并 单 击 Close 按钮 ,如 图 9-6 所 示 。 

(7) 单 击 Choose 按钮 后 的 LinearRegression 方法 ,弹出 参数 设置 框 ,这 里 选择 默认 参 
数 ,并 单 击 OK 按钮 ,如 图 9-7 所 示 。 

(8) 在 Test options 选项 中 选择 Use training set 单 选 按 钮 ,并 将 “油耗 (class)” 设 为 因 


. 9] 。 


(f Feka Explorer 


Preprocess | Classify | Cluster | Associate | Select attributes | Visualize! 


Classifier 


weka ^ 
BO dassifiers 
E bayes 
BD functions 
© GaussianProcesses 
. 
© LeastlledSq 


fier output 


© lultilayerPerceptron 


RBFNetwork 


g 


PO lay 

DO neta 
BAs 0 -e 
Hilter.. [Benove filter 


Status 
oK 


9-6 选择 LinearRegression 方法 


(f)Weka Explorer 
Preprocess | Classify | Cluster | Associate| Select attributes] Visudize| 
Classifier 
| (F weka. gui. GenericObjectEditor 


Test options "eka classi fiers. functions. LinearRegression 


About 


Class for using linear regression for prediction. 


attributeSelectionMethod |MS method. 


debug [Fase — 


一 一 一 一 于 sliminateColinearAttributes True 


ridge |1.0P-8 


Result list 


Swe. JÍ 


Status 
oK 


9-7 进行 参数 设置 


变量 ,如 图 9-8 所 示 。 
(9) 单 击 Start 按钮 , Weka 对 autoMpg 数据 集 执行 线性 回归 算法 ,在 算法 的 执行 结果 中 给 
出 了 建立 的 线性 回归 模型 ,如 图 9-9 所 示 。 这 个 回归 模型 的 首 行 ,一 2. 2744 x cylinders 一 6,3， 
5,4 表示 ,如 果 汽 车 有 6 PE 3 ARTIS 个 和 或 4 个 红 , 就 会 在 此 列 中 放 上 一 个 1, 如 果 为 其 
他 和 饶 数 , 就 会 放 上 一 个 0。 
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(Feka Exzplorer 


| Preprocess| Classify | Cluster | Associate| Select attributes | Visualize 


Classifier 


Choose |LimearRegression -S 0 -R 1.0E-8 


Test options Classifier output 
(S) Use training set 
O Supplied test set 
O Cross-validation 
O Percentage split 


More options... 


cylinders 
di splacenent 
horsepower 
weight 
acceleration 
model 

origin 


图 9-8 设置 因 变量 


(TY¥eka Explorer 


Preprocess| Classify | Cluster | Associate | Select attributes | Visualize| 


Classifier 
Choose |LinearRegression -5 0 -R 1. 0E-6 


Test options Classifier output 


© Use training set 
O Supplied test set 
O Cross-vali dati on 


O Percentage split m | [class = 


Linear Regression Model 


More options.. -2.2744 
74.4421 

.74 

.012 


cylinders-6,3,5,4 + 
cylinders-3,5,4 + 
cylinderss5,4 + 
displacement 4 


(fum) class 


.0056 
Result list (right-click for options) .6184 


.8307 


weight 4 
n0del-75,71,76,74,77,78,79,81,82,80 + 
m0del-77,78,79,81,82,80 + 

.8958 * modelz79,81,82,80 + 

.7754 * model-81,82,80 + 

.167 * model-82,80 + 

.2522 * model=80 + 

.1363 * origin-2,3 4 

.9165 


* 
* 
. 
* 
.0359 * horsepower 十 
. 
* 
* 
* 
* 


Time taken to build model: 0.02seconds 


Status 
0K 


9-9 执行 回归 算法 


(10) 为 了 观察 可 视 化 的 分 类 结果 ,在 左下 方 Result list 列 出 的 结果 上 右 击 ,在 弹出 菜 
单 中 选择 Visualize classifier errors 项 ,如 图 9-10 所 示 。 

(11) 在 弹出 的 可 视 化 结果 对 话 框 中 ,可 以 查看 实际 油耗 值 和 预测 油耗 值 之 间 的 对 应 关 
系 , 如 图 9-11 所 示 。 


(fi Feka Explorer 


TER 


| Preprocess| Classify | Cluster | Associate Select attributes Visualize 


Classifier 
Choose |LinearRegression -5 0 -R 1. 0E-8 


Test options 


Classifier output 
© Use training set 


O Supplied test set 
O cross-validation 
O Percentage split [ class = 


Linear Regression Model 


More options 


-2.2744 * cylinders-6,3,5,4 4 
-4.4421 * cylinders-3,5,4 + 
(fam) class 6.74  * cylinders-5,4 十 
0.012 * displacement 4 


Start -0.0359 * horsepower 4 
-0.0056 * weight 4 
1.6184 * model-75,71,76,74,77,78,79,81,82,80 4 
functions. Lineare Vier iaaa Eo A Mo00-7^,79,81,82,80 + 
,82,80 + 
,80 + 
* 


Result list (right-click for options) 


View in separate window 
Save result buffer 
Delete result buffer 


+ 
Load model 


Save model 


0.02seconds 


Visualize classifier errors 


M| Tipredictedclass Oum) 


N salect Instance 
mm E RR 


Plot:autoMpg predicted 


Class colour 
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图 9-11 查看 可 视 化 结果 


(12) 在 可 视 化 结果 对 话 框 中 , 单 击 Save 按钮 ,将 结果 保存 在 autoresult. arff 文件 中 ,如 
图 9-12 所 示 。 
(13) 在 Weka Explorer 界面 中 打开 autoresult. arff 文件 ,如 图 9-13 所 示 。 在 此 界面 


中 ,可 以 查看 每 个 对 象 的 实际 油耗 值 和 预测 油耗 值 。 例 如 ,编号 为 10 的 汽车 ,实际 油耗 值 为 
15.0 ,预测 油耗 值 为 14. 356 11, 


图 Yeka Classifier Visualize: 13:06:28 — functions.LinearRegre... [- [Fi][X) 


X: class (Nan) WO Y:predictedclass (Nun) 


Lass (Nun Select Instance 
Reset Clear Open í Save ] Jitter |] 


Flot:autolpg predicted 


Class colour 
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图 9-12 保存 可 视 化 结果 


12574972074 


Preprocess | Classi fy | Cluster | Associate | Select attributes | Visualize 


Open file.. 
elation: autolMpg predicted 


Filter 


a cylinders | displacement | horsepower | weight | acceleration | model | origin | predictedclass | class 
[choose |m Nominal Numeric Bwwric i i Bominal | Nominal Bumeric 了 americ 


17.43907|  18.0| 
15.647193|  15.0| 
1T. 231588; 
1T. 08062; 
1T. 326396; 
11. 805066; 
11. 242945; 
11. 488271 
10. 680633. 


Current relat 


Relation: 
Instances: 


Attributes 


A 


CaCIEICICI S 


16.586121 
16. 174038; 

16. 40581 
18. 128591 
24. 827747] 
18. 847197. 
19. 115605; 
20. 588205; 
26.233332, 
29. 380663. 


图 9-13 查看 预测 值 


9.4 案例 小 结 


回归 分 析 是 研究 变量 之 间 相关 关系 的 一 种 统计 推断 法 。 根 据 所 涉及 变量 的 多 少 不 同 , 回 
归 分 析 可 分 为 一 元 回归 和 多 元 回归 。 本 案例 利用 Weka 软件 ,采用 线性 回归 方法 ,实现 了 对 汽 
车 油耗 的 预测 ,取得 了 较 好 的 效果 。Weka 软件 中 提供 的 线性 回归 算法 ,不 仅 能 够 处 理 数值 型 
属性 ,还 能 处 理 名 词性 属性 (如 本 案例 中 的 汽 币 数 ) ,这 是 传统 线性 回归 方法 的 一 个 拓展 。 
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实例 10 基于 决策 树 方法 的 中 文 文本 自动 分 类 分 析 


10.1 任务 描述 


在 某 个 门户 网 站 上 搜集 到 了 120 篇 文本 ,其 中 1 一 40 篇 属于 军事 类 ;41 一 80 篇 属于 电 
影 类 ,81 一 120 篇 属于 篮球 类 。 文 本 集 存储 在 文本 文件 “军事 -电影 -篮球 . txt? 中 。 在 每 类 中 
各 选取 30 篇 文本 , 共 90 篇 文本 作为 训练 集 , 利 用 文本 分 类 技术 建立 分 类 器 ,预测 剩余 30 篇 
文本 所 属 的 类 别 。 并 利用 30 篇 测试 文本 的 已 知 类 别 ,评价 所 建立 文本 分 类 器 在 正确 率 方面 
的 性 能 。 


10.2 技术 原理 


10.2.1 文本 挖掘 的 概念 


在 现实 世界 , 面 对 的 数据 大 都 是 文本 数据 ,由 各 种 数据 源 ( 如 新 闻 文 章 、 研 究 论文 .书籍 、 
数字 图 书馆 .电子 邮件 和 Web 页 面 ) 的 大 量 文本 组 成 。 文 本 数据 不 同 于 传统 数据 库 中 的 数 
据 , 它 具有 自己 的 特点 : 

半 结 构 化 : 文本 数据 既 不 是 完全 无 结构 的 也 不 是 完全 结构 化 的 。 例 如 ,文本 可 能 包含 
结构 字段 ,如 标题 ,作者 、 出 版 日 期 长度、 分 类 等 ,也 可 能 包含 大 量 的 非 结 构 化 的 数据 ,如 摘 
要 和 内 容 。 

高 维 : 文本 向 量 的 维 数 一 般 都 可 以 高 达 上 万 维 ,一 般 的 数据 挖掘 、 数 据 检索 的 方法 由 于 
计算 量 过 大 或 代价 高 昂 而 不 具有 可 行 性 (比如 多 元 统计 分 析 中 的 主因 素 分 析 )。 

高 数据 量 : 一 般 的 文本 库 中 都 会 存在 最 少数 千 个 文本 样本 ,对 这 些 文本 进行 预 处 理 、 编 
码 ,挖掘 等 处 理 的 工作 量 是 非常 庞大 的 ,因而 手工 方法 一 般 是 不 可 行 的 。 

语义 性 : 文本 数据 中 存在 着 一 词 多 义 、 多 词 一 义 ,在 时 间 和 空间 上 的 上 下 文 相 关 等 

随 着 信息 技术 的 发 展 ,文本 数据 的 数量 急剧 增长 ,所 以 对 文本 进行 数据 挖掘 成 为 了 数据 
挖掘 的 一 个 发 展 方向 。 文 本 挖掘 以 文本 型 信息 源 作为 分 析 的 对 象 ,利用 定量 计算 和 定性 分 
析 的 方法 ,从 中 寻找 到 信息 结构 、 模 型 .模式 等 各 种 隐 含 的 新 颖 知识 。 

文本 挖掘 过 程 一 般 包括 文本 分 词 文本 特征 表示 、 词 频 和 矩阵 降 维 、 文 本 相似 度 计算 ,文本 
知识 获取 等 。 在 经 过 对 文本 数据 进行 一 系列 的 预 处 理 以 后 ,传统 的 数据 挖掘 方法 同样 可 以 
应 用 于 文本 数据 挖掘。 


10.2.2 文本 分 词 技术 


分 词 是 中 文 信息 处 理 从 字符 处 理 水 平 向 语义 处 理 水 平 迈进 的 关键 。 汉 语文 本 不 像 西 文 
那样 , 词 与 词 之 问 有 空格 间隔 ,同时 由 于 汉语 的 构 词 方式 .不 同 分 词 方式 表达 不 同意 义 等 特 
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点 ,使 得 中 文 处 理 必 须 有 分 词 这 道 工 序 。 
汉语 分 词 的 难点 主要 表现 在 两 个 方面 , 即 歧 义 切 分 和 未 登录 词 的 切 分 。 
。 歧义 切 分 : 汉语 字 与 字 之 间 组 词 灵活 ,给 分 词 带 来 了 很 大 的 困难 。 从 上 下 文 关系 的 
角度 看 ,其 中 只 有 一 种 切 分 结果 是 正确 的 。 
。 未 登录 词 切 分 : 未 登录 词 主要 是 指 分 词 系统 的 词典 中 未 收录 的 词 。 不 断 出 现 的 新 
词 属于 另外 一 类 未 登录 词 ,反映 在 自然 语言 上 就 是 大 量 的 新 词 不 断 涌现 。 
分 词 技术 ,大致 可 以 分 为 5 类 : 词典 分 词法 、 切 分 标记 分 词法 、 基 于 统计 的 分 词 方法 、 基 
于 语言 规则 的 分 词 方 法 和 智能 分 词 方 法 。 


10.2.3 文本 特征 表示 


文本 特征 指 的 是 关于 文本 的 元 数据 ,分 为 两 种 : 描述 性 特征 ,如 文本 的 名 称 、 日 期 ,大 
小 、 类 型 等 ;语义 性 特征 ,如 文本 的 作者 、 机 构 、 标 题 \ 内 容 等 。 描 述 性 特征 易于 获得 ,而 语义 
性 特征 则 较 难得 到 。 

向 量 空间 模型 是 近年 来 应 用 较 多 且 效 果 较 好 的 表示 文本 特征 的 方法 。 在 该 模型 中 , 文 
本 空间 被 看 作 是 由 一 组 正 交 词 条 向 量 所 张 成 的 空间 ,每 一 个 词 条 称 为 一 个 特征 项 ,每 一 个 文 
本 d 则 表示 为 空间 内 的 一 个 向 量 ,一 般 表 示 为 

V (d) = (wt) wts) wts) wt,)) (10-1) 

其 中 ,i; 为 张 成 文本 空间 的 词 条 ;nn 为 文本 空间 的 维 数 ;w(t;) 是 函数 ,其 基本 功能 是 计算 词 
条 4; 在 文本 向 量 中 的 权重 ;w(tii) 一 般 被 定义 为 n 在 文本 4 中 出 现 频率 1f;(d) 的 函数 , 即 
w(4) 二 J(1f1(4d)) ,常用 的 如 下 : 

(1) 布尔 函数 : 


1 tfi(d)>0 
p=] | (10-2) 
0 zfi(d)=0 
(2) 平方 根 函 数 : 
p= Fay (10-3) 
(3) 对 数 函 数 : 
9 = logtf:(d) +1) (10-4) 
(4) TFIDF 函数 : 
y= tfi(d) x log( 3) (10-5) 


其 中 N 为 所 有 文本 的 数目 ,m 为 含有 词 条 的 文本 数目 。 


10.3 具体 实现 


(1) 中 文 分 词 技 术 相 对 比较 复杂 ,这 里 使 用 现成 的 中 文 分 词 软件 进行 分 词 。 在 浏览 器 
中 输入 网 址 http: //www. hylanda. com/ ,进入 天 津 海量 信息 技术 有 限 公 司 的 体验 中 心 ,并 
单 击 海量 中 文智 能 分 词 选项 ,进入 中 文智 能 分 词 体验 界面 ,如 图 10-1 所 示 。 
(2) 依次 将 每 篇 文本 粘贴 到 “输入 原文 " 框 , 并 单 击 显 示 分 词 结果 ”按钮 , 则 分 词 后 的 结 
果 显 示 在 “分 词 结果 ”中 ,如 图 10-2 所 示 。 
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轻松 注册 jette 


products, easy to register and be first to experience 


当前 位 置 : 首页 >> 体验 中 心 = 海量 中 文智 能 分 冶 


= Experience Center 
体验 中 心 
海 纳 在 线 数据 控 掘 服务 
海量 中 文智 能 分 局 输入 原文 分 司 例文 : 例文 一 例文 二 例文 三 
分 司 结果 
图 10-1 进入 智能 分 词 体验 界面 
MARX ibit: 例文 -例文 二 例文 三 
EPN- MERTEN ERREA HEFE ARRAIA H 
BBBETEDEEGO. R ERRIN SME IIMNTER EEEN 
E EHCRÓDMESBHL, P DIC MS HBMT 
分 词 结果 


^ 唯一 一 起 gi RCBHH gast 号 将 : F: 本 月 HE 抵达 SHE 
海域 ， 并 对 该 国 多 个 港口 进行 访问 。 BR" ERREA” 号 航母 外 ， 到 
Hiro UN EFH BE HE” PRU 一 盘 护卫 舰 和 一 舟 


图 10-2 中文 分 词 示例 


(3) 进行 预 过 滤 ,以 避免 非常 短 或 非常 长 的 关键 词 以 及 不 是 单词 的 词语 ;再 进行 高 . 低 通 
过 滤 , 过 滤 那 些 很 不 常用 和 诸如 辅助 动词 那些 出 现 频率 很 高 的 常用 词 。 以 上 过 程 读 者 可 以 自 
己 编 程 实现 。 分 词 并 进行 过 滤 后 的 120 篇 文本 存储 在 文件 “军事 -电影 -篮球 分 词 . xlsx” 中 。 
(4) 经 过 统计 在 120 篇 文本 中 共 出 现 了 522 个 词语 。 然 后 统计 每 个 词语 在 每 个 文本 中 
现 的 次 数 ,形成 120X522 的 词 频 矩 阵 。 将 词 频 矩阵 保存 在 文件 * 词 频 矩 阵 . xlsx” 中 。 
(5) 利用 公式 (10-5) 计 算 每 个 词语 在 每 篇 文本 中 的 权重 ,形成 120X 522 的 文本 特征 向 
量 和 矩阵 。 将 训练 文本 集 和 测试 文本 集 的 文本 特征 向 量 和 矩阵 分 别 存储 在 “文本 特征 向 量 和 矩阵 
90.csv” 和 “文本 特征 向 量 和 矩阵 30. csv” 中 。 
(6) 分 别 在 文件 “文本 特征 向 量 矩 阵 90. csv” 和 “文本 特征 向 量 和 矩阵 30. csv” 中 的 最 后 加 
入 一 列 , 用 来 表示 文本 的 类 别 。 其 中 x 代表 此 文本 属于 军事 类 别 ,y 代表 此 文本 属于 电影 类 
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别 ,z 代 表 此 文本 属于 篮球 类 别 。 
(7) 选择 “开始 ”>“ 所 有 程序 ”>Weka 3. 6. 5— Weka 3. 6 命令 ,如 图 10-3 所 示 。 


dobe Reader X 


(E) Microsoft Office 


E Internet Explored| EL Windows Install Clean Up Æ) Documentation 
I) MathType 5 » [ @ winstall Yeka 3.6.5 


LT D 


^ BEJE OTER 


i © "eka 3.6 (ith console) 


同 Microsoft Silverlight , 


E Microsoft SOL Server 2005 — »| 


图 10-3 打开 Weka 软件 


(8) 单 击 Explorer 按钮 ,如 图 10-4 所 示 。 


($i Weka GUI Chooser 


The University 
,of Waikato 


Waikato Environment for Enowledge Analysis 
Version 5.6.5 

(e) 1999 - 2011 

The University of Wailmte 

Hamilton, Wew Zealand 


图 10-4 打开 Explorer 应 用 


(9) 单 击 Open file 按钮 ,选择 要 打开 的 文件 "文本 特征 向 量 和 矩阵 90. csv”, 并 单 击 “ 打 
开 ” 按 钮 ,如 图 10-5 所 示 。 


[21778 730705 


freprocess | 


Dpen file... p 


Filter 一 
[choose None 查看 : [ORNEARRE 
Current relation | 国文 本 特 征 向 县 矩阵 30. csv 


Relation: None 2 esy Type: None 


Instances: None hique: None 


Attributes 


LP! 文件 名: SCENHEBLBAGIEOO. csv 
网 上 邻居 。 文件 类 型 : [CSy data files (k. esv) 


Status 
Welcome to the Weka Explorer 


图 10-5 打开 训练 数据 文件 
ES 


(100 在 如 图 10-6 所 示 的 界面 中 ,可 以 知道 此 数据 集中 共有 90 个 实例 ,每 个 实例 有 522 个 
属性 。 选 中 某 个 属性 ,可 以 查看 90 个 实例 关于 此 属性 的 属性 值 的 最 小 值 .最 大 值 ` 均 值 和 标 
准 差 等 信息 。 


(fi Feka Explorer 


Preprocess | Classify| Cluster | Associate| Select attributes | Visualize! 


[Copen file... ][ open URL | L Open s. 


| [Generate 


Filter 
cR 


Current relation 


Relation: XCAEREÍEIS HERES 


Instances: 90 Attributes: 522 


Attributes 


Selected attribute 
Name: al 
Missing: 0 (0%) 


Distinct: 3 


Apply 


Type: Numeric 
Unique: 2 (28) 


| Statistic 


Minimun 


StdDev 


[cies a523 (Non) 


Visualize All 


图 10-6 ”查看 数据 特征 


(11). 单 击 Classify 标签 ,并 单 击 Choose 按钮 。 如 图 10-7 所 示 ,选择 J48 分 类 器 ,并 单 
ili Close 按钮 。 
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[Weka Explorer 


| Preprocess | Classify | Cluster | Associate | Select attributes | Visualize! 


Classifier 


DD veka ^ 


BO -lassifiers 

HO bayes 

H functions 

由 癌 lazy 

由 -器 meta. 

HOn 

H mise 

O rules 

BO trees 
. 
© BFIree 
9 DecisionStunp 
er 
. 
* o 
9 J48graft 
© LADTres 
* UT 
. 
© NBIree 
© RandonForest 
9 RandonIree 
© REPTree 
9 SimpleCart h.d 


| [piater . | [ Benove filter ][ mese 


ifier output 


Status 
OK 


图 10-7 


选择 分 类 方法 


(12) 选择 Test options 选项 中 的 Supplied test set 单 选 按钮 , 单 击 Set 按钮 ,如 图 10-8 
所 示 。 


了 1Weka Explorer 


| Preprocess | Classify | Cluster | Associate | Select attributes | Visualize 


Classifier 


[messe Jrao -c 0.25 -n 2 


Test options Classifier output 
O Vse training set 

© Supplied test set 
O Cross-validation Folàs [i0 | - Test Instances AEA 
O Percentage split x [se ZI 


Relation: None 


More options... Instances: None Attributes: None 


Oom) 4523 * 


Start Stop 


Result list (right-click for options) 


Status 
oF 


图 10-8 设置 测试 选项 


(13) 选择 “文本 特征 向 量 和 矩阵 30. csv” 文 件 , 并 单 击 “ 打 开 ” 按 钮 ,如 图 10-9 所 示 。 


(f)Weka Explorer 
| Preprocess| Classi une 
C T 
Los It : [Damotas 
Test options E LEEG ERE. csv 
O Use training EA XERE ERE. csv 
© Supplied test 
O Cross-vali dat: 


O Percentage sp 


Result list (righ| 


文件 名 : [KERERE csv 


网 上 邻居 。 文件 类 型 : [CSV data files (tcsv) 


10-9 打开 测试 数据 文件 


C14). 单 击 Start 按钮 , Weka 软件 显示 运行 结果 ,如 图 10-10 所 示 。 从 结果 可 以 看 出 ,30 篇 
文本 中 28 篇 文本 得 到 了 正确 的 分 类 结果 ,正确 率 为 93.33%。 


(15) 右 击 Result list 中 刚才 出 现 的 那 一 项 ,在 弹出 的 菜单 中 选择 Visualize tree 项 ,如 
图 10-11 所 示 。 
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Weka Explorer 


| Preprocess| Classify Cluster | Associate | Select attributes | Visualize 


Classifier 


[ose ro cos ne 


Test options Classifier output 


人 D Vse training set Mean absolute error 


© Supplied UTD Root mean squared error 
EE TL—— —— Relative absolute error 
Qtross-validation F Root relative squared error 


O Percentage split Total Number of Instances 


| More options... — —  — | | === Detailed Accuracy By Class === 


(Nom) a523 TP Rate FP Rate Precision Recall F-Measure 


0.1 0.833 1 0.909 


4 
Start P 0.8 0 1 0.8 0.889 
1 


0 1 1 1 
Weighted Avg. 0.933 0.033 0.944 0.933 0.933 


Result list (right-click for options) 


=== Confusion Matrix === 


<-- classified as 
a=x 

b-y 
gas 


c 
0I 
0 1 
10 | 


图 10-10 运行 分 类 方法 


(TY¥eka Explorer 


| Preprocess| Classify |Cluster| Associate Select attributes | Visualize| 


48 -C 0.25 -M 2 


Test options Classifier output 


O Use. training set Mean absolute error 0.0667 
© supplied test set Root mean squared error 0.1957 
Relative absolute error 15 E 
O Cross-validation LEN Root relative squared error 41.5112 & 
O Percentage split Total Number of Instances 30 


More optio: = Detailed Accuracy By Class =: 


(Nom) a523 TP Rate FP Rate Precision Recall F-Measure 
1 0.1 0.833 1 0.909 


Start 0.8 0 0.8 0.889 


1 0 1 1 
Weighted Avg. 0.933 0.033 0.933 0.933 


Result list (right-click for options) 


EE Yi 


iew in main window 


Matrix === 
View in separate window 


Save result buffer 
Delete result buffer 


~ classified as 


Load model 
Save model 


Re-evaluate model on current test set 


Visualize classifier errors 
mali 


Visualize margin curve 
Visualize threshold curve , 


图 10-11 选择 可 视 化 决策 树 选 项 


(16) 新 窗口 中 可 以 看 到 图 形 模式 的 决策 树 ,如 图 10-12 所 示 。 
(17) 右 击 Result list 中 刚才 出 现 的 那 一 项 ,在 弹出 的 菜单 中 选择 Visualize classifier 
error 项 ,如 图 10-13 所 示 。 
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Pl Feka Classifier Iree Visualizer: 


17:42:32 - tr... MBR) 


Tree View 


图 10-12 查看 决策 树 


I7 578 Explorer 


| Preprocess | Classify | Cluster | Associate | Select attributes | Visualize 


Classifier 


[choose 748 -c 0.25 -n 2 


Test options Classifier output 


(aep etniog nd |=== Evaluation on test set === 
=== Summary === 


© Supplied test set 


Correctly Classified Instances 28 93.3333 * 


O Cross-validation 
O Percentage split 


[ More options. 


| (Nom) a523 


" | 


Incorrectly Classified Instances 
Kappa statistic 

Mean absolute error 

Root mean squared error 
Relative absolute error 

Root relative squared error 
Total Number of Instances 


2 6.6667 & 
0.9 
0.0667 
0.1957 
15 * 
41.5112 * 
30 


Start 


Result list (right-click for options) 
15:14:13 - rules.ZeroR 


=== Detailed Accuracy By Class --- 


TP Rate FP Rate 
View in main window 1 0.1 


Precision Recall F-Measure ROC j 
0.833 1 0.909 D.t 
View in separate window 0.8 1 0.8 0.889 D.t 


Save result buffer 1 1 1 1 
Delete result buffer 0.933 0.944 0.933 0.933 


Load model 
Save model 


Re-evaluate model on current test set 


jatrix === 


classified as 


Visualize classifier errors 


Visualize tree 


[5 ) ege 


Visualize margin curve 


图 10-13 选择 Visualize classifier errors 选项 


(18) 在 弹出 的 对 话 框 中 单 击 Save 按钮 ,并 保存 为 文件 “中 文 分 类 详细 结果 . arff”, 如 
图 10-14 和 图 10-15 所 示 。 

(19) 打开 文件 “中 文 分 类 详细 结果 . arff”, 可 以 查看 每 篇 文本 的 实际 类 别 和 应 用 文本 挖 
据 方 法 得 到 的 预测 类 别 。 从 结果 中 可 以 看 出 有 两 篇 电影 类 别 的 文本 被 预测 成 了 军事 类 别 文 
本 ,如 图 10-16 所 示 。 
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FÌ Feka Classifier Visualize: 15:14:46 — trees.J48 (文本 特征 向 


X: a523 (on) ~ 


Y:predicteda523 (Non) 
| Colour: 4523 (Nom) 


Select Instance 


| Reset 


| gem JL Dpen JE] Jitter |] 


Plot EREEREER predicted 


Class colour 


10-14 查看 可 视 化 分 类 结果 


Ca 实例 10 文 本 数据 挖掘 a d cca 


O 中 文 分 类 详细 结果 , arff 


网 上 邻居 文件 类 型 : 


Arff data files 


10-15 将 分 类 结果 保存 于 文件 


Rn 


10-16 查看 预测 结果 


10.4 案例 小 结 


随 着 信息 技术 的 发 展 ,文本 数据 的 数量 急剧 增长 ,所 以 就 有 必要 实现 对 文本 数据 的 自动 
挖掘 。 本 案例 利用 由 90 篇 文本 组 成 的 训练 集 , 采 用 决策 树 方法 构建 了 分 类 器 ,最 终 实 现 了 
对 30 篇 文本 的 自动 分 类 ,并 取得 了 较 高 的 正确 率 。 对 中 文 文本 实现 自动 分 类 的 关键 是 对 文 
本 进行 预 处 理 : 首先 ,进行 分 词 ,这 一 步骤 可 以 借用 现成 的 软件 进行 实现 ;然后 ,在 词 频 矩 阵 
的 基础 上 利用 TFIDF 公式 得 到 文本 的 特征 向 量 矩 阵 ; 最 后 ,可 以 采用 数据 挖掘 中 的 分 类 方 
法 实现 对 文本 的 分 类 。 在 案例 的 实现 过 程 中 ,文本 特征 向 量 抢 阵 是 一 个 高 维和 矩阵, 通过 属性 
选取 方法 可 以 使 得 实现 过 程 进一步 得 到 优化 ,也 可 以 试 着 采用 数据 挖掘 的 其 他 分 类 方法 看 
一 下 分 类 结果 的 正确 率 。 
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附录 A SQL Server 2005 的 安装 


Al 任务 描述 


凭借 全 面 的 功能 和 高 度 的 集成 性 ,以 及 对 日 常任 务 的 自动 化 管理 能 力 ,SQL Server 
2005 为 不 同 需求 的 用 户 提 供 了 一 个 可 靠 、. 安 全 和 高 效 的 平台 ,用 于 数据 管理 .数据 挖掘 和 商 
务 智能 。 安 装 SQL Server 2005 基本 上 与 其 他 Windows 产品 类 似 , 与 SQL Server 以 前 版 
本 的 区 别 在 于 要 有 . NET 框架 的 支持 。 

请 操作 实现 SQL Server 2005 软件 在 Windows XP 系统 下 的 安装 过 程 。 


A2 具体 实现 
(D 双击 SQL Server 2005 安装 软件 包 中 的 可 执行 程序 setup. exe, 如 图 A-1 所 示 。 


文件 中) SEO FEV KEO IAW R0 
Qa- Q $ Onr r ml 
地 址 10 [O E;'\ 数 据 仓库 与 数据 挖 所 工程 实例 \SQLServer_2005_dev_all_dvd\SQLS， x8B\S v Eds 


rej PERCEAS ] Eig ] «dis LJ Setup 
c A-I 


[:] 将 这 个 文件 天 发 到 autorun. ico autorun. i á ^ DbgHelp. d11 
el 16 x 16 安装 信 6.5.3.7 
kg ERUR D LE in nage He 


default. hta 
HTNL Application 
15 K 


£t. VCB0.C 


EST 


splash hta 
HINL Application 
5 KB 


sqlspkelist. dll 
2005. 90. 1399. 0 
CD Install Packa 


图 A-1 选择 可 执行 程序 


(2) 在 弹出 的 “Microsoft SQL Server 2005 安装 程序 ”对 话 框 中 ,选中 “我 接受 许可 条 款 
和 条 件 ” 复 选 框 , 单 击 “ 下 一 步 ” 按 钮 ,如 图 A-2 所 示 。 
(3) 在 弹出 的 “安装 必 备 组 件 ” 页 面 中 , 单 击 “ 安 装 ” 按 钮 ,如 图 A-3 所 示 。 
(4) 安装 成 功 后 , 单 击 “ 下 一 步 ”按钮 ,在 弹出 的 “欢迎 使 用 Microsoft SQL Server 安装 
向 导 ” 页 面 中 , 单 击 “ 下 一 步 ”按钮 ,如 图 A-4 所 示 。 
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网 microsoft SQL Server 2005 ZRF 


最 终 用 户 许 可 协议 


MICROSOFT 软件 许可 条 款 
MICROSOFT SQL SERVER 2005 DEVELOPER EDITION 
本 许可 条 款 是 Ego Corporation【 或 您 所 在 地 的 Microsoft 
Corpor staon EC MEET EM 
i QUE BISHER WETEN 
e RART 

更 新 、 

补充 、 

基于 Internet 的 服务 和 

支持 服务 


如 果 确 实 附带 有 其 他 条 款 ， 则 其 他 条 款 应 适用 。 


图 A-2 接受 许可 条 款 


网 microsoft SQL Server 2005 安装 程序 


安装 必 备 组 件 
在 安装 SQL Server 之 前 安装 所 需 的 软件 组 件 。 


SQL Server SQL Server Zr: 


V NET Framework 2.0 
V NET Framework 2.0 - 语言 包 
P Microsoft SQL Native Client 
Microsoft SQL Server 2005 安装 程序 支持 文件 


图 A-3 安装 必 备 组 件 
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JE Nicrosoft SQL Server 2005 安装 程序 


欢迎 使 用 Microsoft SQLServer 安装 向 导 


安装 程序 将 协助 悠 安装 、 修 改 或 删除 Microsoft SQL Server。 若 要 继续 ， 
请 单 击 “ 下 一 步 ”。 


图 A-4 使 用 安装 向 导 


(5) SQL Server 将 自动 检查 系统 中 可 能 存在 的 潜在 问题 ,最 常见 的 问题 是 ,系统 提示 
"IIS 未 安装 或 未 启用 ”, 如 果 安 装 了 IIS 服务 请 启动 TIS 服务 ,如 果 没 有 安装 请 安装 TIS 服 
务 。 系 统 配 置 成 功 后 , 单 击 “ 下 一 步 ” 按 钮 ,如 图 A-5 所 示 。 


xi 
系统 配置 检查 
请 等 待 ， 正 在 检查 系统 中 是 否 有 潜在 的 支 装 问题 。 
m] 
14 总 计 0 错误 
(9 xm 14 成 功 oS 
详细 信息 0) : 


O 最 低 硬件 要 求 

d) IIS 功能 要 求 

O 挂 起 的 重新 启动 要 求 

d 性 能 监视 器 计数 器 要 求 
d 默认 安装 路 径 权限 要 求 
Q Internet Explorer ÆR 
d) com 目录 要 求 


d) ASP.Net 版 本 注册 要 求 
d) WDAC 版 本 的 最 低 要 求 


图 A-5 系统 配置 检查 


(6) 注册 信息 填写 姓名 和 25 个 字符 的 产品 密 钥 , 单 击 * 下 一 步 ?按钮 ,如 图 A-6 所 示 。 

(7) 选择 需要 安装 的 组 件 , 单 击 " 下 一 步 "按钮 ,如 图 A-7 所 示 。 

(D SQL Server Database Services: SQL Server 默认 选中 的 基础 服务 。 

© Analysis Services: TE SQL Server 2005 中 ,分 析 服 务 (Analysis Services) 提供 了 一 
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soft SQL Server 2005 (64 ZSE x| 


注册 信息 
下 列 信息 将 对 您 安装 的 系统 进行 个 性 化 设置 。 


在 继续 操作 之 前 ,必须 填写 “姓名 ”字段 。 “公司 ”字段 是 可 选 的 * 
EQ 

(R | 

公司 0): 


TRA 25 个 字符 的 产品 密 钥 * 在 CD ÜÜMDIBRRSEEST-T EH TES CD HE 
IEEE 


图 A-6 设置 注册 信息 


LIN ft SQL Server 2005 安装 程序 3 xj 
要 安装 的 组 件 
请 选择 要 安装 或 升级 的 组 件 。 


Ív SQL Server Database Services (S) 1 


P OE SQL Server 获 随 转移 群 人 


T- EAEE EEFE 


[v Reporting Services (R) 3 
TV Notification Services 0) 1 
M Integration Services (I) 5 


ibi mur" SEELEN. aso | 


sop | «r-5m|[v-5m»] mm | 


A-7 选择 安装 的 组 件 


个 统一 和 集成 的 商业 数据 视图 ,可 被 用 做 所 有 传统 报表 、QLAP 分 析 和 数据 挖掘 的 基础 (在 
这 里 选中 安装 )。 

(3 Reporting Services: SQL Server 2005 Reporting Services 是 一 个 基于 服务 器 的 企业 
级 报表 环境 ,可 借助 web services 进行 管理 。 通 过 把 报表 作为 更 进一步 的 商业 智能 的 数据 
源 来 分 发 ,复杂 的 分 析 可 被 更 多 的 用 户 所 用 (在 这 里 选中 安装 ) 。 

@ Notification Services; 通知 服务 ,具有 现实 的 商业 价值 ,它们 吸引 客户 ,让 雇主 更 高 
A ,决策 更 灵敏 。 

(9 Integration Services: SQL Server 2005 带 来 了 一 个 全 新 的 企业 级 数据 整合 平台 。 
此 平台 具有 出 色 的 整合 能 力 ,使 得 组 织 机 构 能 更 加 容易 地 管理 来 自 于 不 同 的 关系 型 和 非 关 


(8) 选择 命名 实例 ,实例 名 填写 DATAMINING , 单 击 “ 下 一 步 ” 按 钮 ,如 图 A-8 所 示 。 
O 默认 实例 : 用 计算 机 在 网 络 上 的 名 字 来 命名 实例 。 如 果 应 用 程序 在 请 求 连接 SQL 
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osoft SQL Server 2005 安装 程序 x| 


实例 名 
您 可 以 安装 默认 实例 ， 也 可 以 指定 一 个 命名 实例 。 


TO 


C 默认 实例 0) 


C AZRIA) 


若 要 查看 现 有 实例 和 组 件 的 列表 ， 请 单 击 “ 已 安装 的 实例 ”。 


已 安装 的 实况 四 
amw | «x-5m|[r-5m»] 取消 | 


图 A-8 命名 实例 


Server 时 只 指定 了 计算 机 名 , 则 SQL Server 客户 端 组 件 将 尝试 连接 这 台 计 算 机 上 的 数据 库 
引擎 默认 实例 。 这 保留 了 与 现 有 SQL Server 应 用 程序 的 兼容 性 。 一 台 计 算 机 上 只 能 有 一 
个 默认 实例 ,而 默认 实例 可 以 是 SQL Server 的 任何 版 本 。 

@ 命名 实例 : 通过 使 用 计算 机 在 网 络 上 的 名 字 加 上 实例 名 字 来 进行 标识 的 实例 。 就 
是 在 有 了 默认 实例 后 ,命名 其 他 的 实例 ,就 需要 再 次 安装 命名 实例 ,一 台 计 算 机 可 以 同时 拥 
有 多 个 命名 实例 。 

(9) 在 服务 账户 中 选择 “使 用 内 置 系统 账户 ”中 的 “本 地 系统 ”项 ,在 “安装 结束 时 启动 服 
务 ” 选 项 组 中 选中 SQL Server, Reporting Services 和 Analysis Services 复 选 框 , 单 击 “ 下 一 
步 ” 按 钮 ,如 图 A-9 Bros. 


xi 
SEP 
服务 账户 定义 登录 时 使 用 的 账户。 
a 
厂 为 每 个 服务 账户 进行 自 定义 C) 
[T 
[ zi 
G 使 用 内 置 系统 账户 W rr-— m - 
C 使 用 域 用 户 账 户 a 
用 户 名 QD [cm mie cti 
za | FS 
i0) | PE) 
安装 结束 时 启动 服务 
[v SQL Server (S) [v Reporting Services (D) 
[^ SQL Server Agent (G) 
J Analysis Services (A) 


aw | 《上 - 步 g | [Ts*m>|] mm | 
图 A-9 设置 服务 账户 
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(10) 在 身份 验证 模式 中 选择 “Windows 身份 验证 模式 ” 单 选 按钮 , 单 击 “ 下 一 步 ” 按 钮 ， 


如 图 A-10 所 示 。 
im Microsoft SQL Server 2005 安装 程序 


身份 验证 模式 
身份 验证 模式 指定 了 连接 SQL Server 时 使 用 的 安全 设置 。 


选择 此 系统 要 使 用 的 身份 验证 模式 。 


〇 Windors ARER W 
〇 混合 模式 Windows 身份 验证 和 SQL Server 身份 验证 ) W 


在 下 面 指定 sa 登录 密码 ; 


《上 一 步 @) [ F—i 0D »] 取消 


图 A-10 设置 身份 验证 模式 


(11) 依次 单 击 “ 下 一 步 ” 按 钮 ,如 图 A-11 和 图 A-12 所 示 。 


他 microsoft SQL Server 2005 ZEF È xj 


排序 规则 设置 
排序 规则 设置 定义 了 服务 器 的 排序 方式 。 


C 排序 规则 指示 符 和 排序 顺序 0): 


[chinese FR x] 


厂 三 进 制 厂 二 进 制 - 码 位 
厂 区 分 大 小 写 T 区 分 假名 
厂 区 分 全 半角 


ESSE 


图 A-11 进行 排序 规划 设置 


e Jile 


iS Nicrosoft SQL Server 2005 安装 程序 


错误 和 使 用 情况 报告 设置 
zm Microsoft 改进 SQL Server 2005 的 某 些 组 件 和 服 


BOR E Ji: i SEAIN 5] 
发 生 措 误 时 SUL Server 2005 所 处 的 状态 、 修 的 硬件 配置 入 息 
B BARENECIES ORT BEL [B Microsoft 不 会 


自动 格 SQL Server 2005 hi 用 情况 数据 发 送 到 让 crosoft。 使 用 情况 数据 
包括 有 关 您 的 硬件 配置 以 们 的 软件 和 服务 的 使 用 情况 的 匿名 信息 QD 


有 关 错 误 报 此 功能 和 发 送 的 信息 类 型 的 详细 信息 ， 请 单 击 “ 才 助 ”。 


《上 一 步 @) ] [下 一 步 外 > 取消 


图 A-12 进行 错误 和 使 用 报告 设置 


(12) 单 击 “ 安 装 ” 按 钮 ,如 图 A-13 所 示 。 
x 


dX 
安装 程序 已 就 绪 ， 可 以 开始 安装 。 


e REL ACE 


将 安装 以 下 组 件 : 


J SQL Server Database Services 
(数据 库 服务 ， 复 制 ， 全 文 搜索 ) 

. Analysis Services 

. Reporting Services 

(Reporting Services， 报 表 管 理 器 ) 

. Notification Services 

. Integration Services 


mi 


< 上 -上 gl | so | ma | 


图 A-13 进行 安装 


(3) 当 安 装 组 件 完 毕 时 如 图 A-14 所 示 , 单 击 "下 一 步 ? 按 钮 ,然后 单 击 “ 完 成 ?按钮 ,如 
图 A-15 所 示 ,到 此 为 止 SQL Server 2005 服务 器 程序 安装 完成 。 
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网 mi croseft SQL Server 2005 ZEF xi 
安装 进度 
正在 配置 所 选 组 件 


产品 
SQL Server HERET TETE 
SOL Server Database Services 安装 完毕 
FREE 安装 完毕 
Reporting Services 安装 完毕 
saua 安装 完毕 
(Noti fi cation Services TETE 
G Integration Services 安装 完毕 = 


图 A-14 安装 进度 显示 


网 Wi crosoft SQL Server 2005 安装 程序 xl 


完成 Microsoft SQL Server 2005 安装 
安装 程序 已 配置 完 Microsoft SQL Server 2005 


Ca 


e 出 现 的 任何 错误 的 信息 ， 请 参阅 安装 错误 日 志 。 单 击 “ 完 成 ”退出 安 


ULL iut Pd on nma 


处 围 应 用 配置 器 工具 。 


Analysis Services 
© WẸ Analysis Services 已 从 SQL Serer2000 升 级 ， 则 必须 使 用 SQL Server 
Management Studio 重新 处 理 所 有 多 准 数据 集 、 准 度 和 挖掘 模型 。 


Reporting Services 

e 您 在 安装 过 程 中 指定 的 Reporting Services 安装 选项 决定 了 是 否 需要 进一步 
的 配置 才能 访问 报表 服务 器 。 如 果 您 在 安装 时 使 用 了 默认 配置 ， 则 可 以 立即 
使 用 报表 服务 器 。 如 果 您 羽 安装 了 程序 文件 ， 则 必须 运行 Reporting Services 
配置 工具 来 部 署 报表 服务 器 。 E 


图 A-15 安装 完成 
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附录 B Weka 软件 的 安装 和 数据 转换 


Bl 任务 描述 


Weka 的 全 名 是 怀 卡 托 智能 分 析 环 境 (Waikato Environment for Knowledge 
Analysis) ,是 由 新 西 兰 怀 卡 托 大 学 开发 的 专业 数据 挖掘 系统 ,为 数据 挖掘 应 用 提供 了 一 个 
统一 的 界面 ,可 以 用 许多 不 同 的 学 习 算 法 处 理 给 定 的 任何 数据 集 ,并 能 够 评估 不 同 的 学 习 算 
法 所 得 出 的 结果 。2005 年 8 月 ,在 第 11 届 ACM SIGKDD 国际 会 议 上 , 怀 卡 托 大 学 的 
Weka 小 组 荣获 了 数据 挖掘 和 知识 探索 领域 的 最 高 服务 奖 , Weka 系统 得 到 了 广泛 的 认可 ， 
被 誉 为 数据 挖掘 和 机 器 学 习 历 史上 的 里 程 碑 , 是 现今 最 完备 的 数据 挖掘 工 具 之 一 。 在 本 案 
例 中 , 试 完成 以 下 任务 : 

(1) 下 载 并 安装 Weka 软件 。 

(2) 如 何 查 看 ARFF 格式 的 文件 。 
(3) 如 何 将 数据 集 转换 成 ARFF 格式 。 


B2 具体 实现 


1. 下 载 并 安装 Weka 软件 
(OD 输入 网 址 http: //www. cs. waikato. ac. nz/ml/weka, 进 入 Weka 软件 下 载 页 面 ,并 
点 击 “Download” 选 项 ,如 图 B-1 所 示 。 


"E ning with Open Source Eachine Learning Software in Java — 360 安 全 浏览 右 3.8 正式 版 
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图 B-1 进入 Weka 软件 下 载 页 面 


ment and provides a live forum 


(2) 选中 要 下 载 的 软件 版 本 ,进行 下 载 ,并 保存 ,如 图 B-2 和 图 B-3 HR 
(3) 单 击 下 载 的 Weka 软件 ,开始 进行 软件 的 安装 ,如 图 B-4 所 示 。 
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图 B-3 进行 下 载 


篇 附录 2 Weka 安 装 
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图 B-4 开始 安装 软件 


(4) 进入 安装 引导 界面 , 单 击 Next 按钮 ,如 图 B-5 所 示 。 
C5) 进入 协议 界面 , 单 击 I Agree 按钮 ,如 图 B-6 所 示 。 
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È Feka 3.6.5 Setup 


Welcome to the Weka 3.6.5 Setup 
Wizard 


This wizard will guide you through the installation of Weka 
3.65. 


Tt is recommended that you close all other applications 
before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 
computer. 


Click Next to continue, 


图 B-5 安装 引导 界面 


È Feka 3.6.5 Setup 


Wek License Agreement 
eka Please review the license terms before installing Weka 3.6.5, 


Press Page Down to see the rest of the agreement, 


GNU GENERAL PUBLIC LICENSE 
Version 2, June 1991 


Copyright (C) 1989, 1991 Free Software Foundation, Inc, 
59 Temple Place, Suite 330, Boston, MA 02111-1307, USA. 


Everyone is permitted to copy and distribute verbatim copies 
of this license document, but changing it is not allowed. 


Preamble 


IF you accept the terms of the agreement, click I Agree to continue, You must accept the 
agreement to install Weka 3,6.5. 


Cancel 


图 B-6 协议 界面 


(6) 进入 选 装 组 件 界面 ,选择 全 部 安装 , 单 击 Next 按钮 ,如 图 B-7 Bros. 


È Feka 3.6.5 Setup 


Choose Components 
Choose which features of Weka 3.6.5 you want to install, 


Weka 


Check the components you want to install and uncheck the components you don't want to 
install. Click Next to continue. 
Select the type of install: 


Or, select the optional Associate Files paon 
components you wish to 


install; 


图 B-7 选择 安装 组 件 
116 % 


(7) 连续 单 击 Next 按钮 ,完成 Weka 软件 的 安装 ,如 图 B-8 一 图 B-10 所 示 。 


Yeka 3.6.5 Setup 


wW k Choose Install Location 
EGA Choose the folder in which to install Weka 3,6,5. 


Setup will install Weka 3.6.5 in the following Folder. To install in a different folder, click Browse 
and select another folder. Click Next to continue. 


Destination Folder 


Space required: 62.0MB 
Space available; 14.3GB. 


Nullsoft Install System 


B-8 选择 目标 地 址 


È Feka 3.6.5 Setup 


Installation Complete 
Weka Setup was completed successfully, 


Extract: RunWeka.ini... 100% 
Extract: RunWeka.class... 100% 
| Output folder: C:\Program Files Weka-3-6. 
Create shortcut: C:\Program Files\Weka-3-6\Weka 3,6,Ink 
Create shortcut: C:\Program Files| Weka-3-6l Weka 3.6 (with console). Ink 
Created uninstaller: C:\Program FileslWeka-3-6luninstall.exe 
: C:\Documents and SettingslAdministrator, 「 开 始 」 药 单程 序 WWeka ... 
\Documents and Settings|Administratorl 「 开 始 」 REEF We... 
\Documents and Settings\Administrator\「 开 始 」 菜单 \ 程 序 \We,,， 
|Documents and Settings|Administrator| 「 开 始 」 EEF We... 
Create shortcut: C:\Documents and SettingslAdministrator, 「 开 始 」 菜 单程 序 \We,， 
| Completed 


LR Yeka 3.6.5 Setup 


Completing the Weka 3.6.5 Setup 
Wizard 


Weka 3.6.5 has been installed on your computer. 


Click Finish to close this wizard. 
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2. 如 何 查看 ARFF 文件 

Weka 对 输入 的 数据 格式 有 自己 特殊 的 要 求 , 即 必 须 符 合 ARFF CAttribute-Relation 
File Format) 格 式 。ARFF 格式 是 Weka 定义 的 一 种 特殊 文件 格式 ,是 一 种 ASCI 文本 文 
fF. Weka 自 带 的 所 有 数据 集 都 是 以 这 种 格式 组 织 的 。 安 装 Weka 之 后 ,可 以 再 安装 目录 
中 找到 这 些 示 例 数据 集 。 

(1) 进入 Weka 软件 的 安装 目录 ,打开 data 文件 夹 , 如 图 B-11 所 示 。 
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图 B-11 打开 data 文件 夹 


(2) 选择 weather. arff 文件 ,在 右键 菜单 中 依次 选择 “打开 方式 ”Microsoft Office 
Word 命令 ,如 图 B-12 所 示 。 
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图 B-12 选择 打开 方式 
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(3) 打开 文件 后 ,文件 如 图 B-13 Bras 。 跟 很 多 数据 分 析 软 件 一 样 , Weka 所 处 理 的 数据 
集 是 一 个 二 维 的 表格 。 表 格 里 的 一 个 横行 称 作 一 个 实例 (Instance) ,相当 于 统计 学 中 的 一 
个 样本 ,或 数据 库 中 的 一 条 记录 。 坚 行 称 作 一 个 属性 (Attribute) ,相当 于 统计 学 中 的 一 个 
变量 ,或 数据 库 中 的 一 个 字段 weather 文件 中 有 5 个 属性 ,14 个 实例 。 


文件 转换 一 weather.arff 


请 选择 使 文档 可 读 的 编码 。 
文本 编码 
Onis WU Ows-msq) OIM [97556 


Battribute outlook [sunny, overcast, rainy] 
Gattribute temperature real 

Gattribute humidity real 

Gattribute windy [TRUE, FALSE] 

Battribute play {yes, no] 


Adata 

sunny, 85, 85, FALSE, no 
sunny, 80, 90, TRUE, no 
overcast, 83, 86, FALSE, yes 
rainy, T0, 96, FALSE, yes 
rainy, 68, 80, FALSE, yes 
rainy, 65, T0, TRUE, no 
overcast, 64, 65, TRUE, yes 
sunny, 72, 95, FALSE, no 
sunny, 69, 70, FALSE, yes 
rainy, T5, 80, FALSE, yes 
sunny, T5, TO, TRUE, yes 
overcast, 72, 90, TRUE, yes 
overcast, 81, T5, FALSE, yes 
rainy, 71, 91, TRUE, no 


图 B-13 文件 格式 示例 


文件 中 的 空 行 将 被 忽略 。 以 “%” 开 始 的 行 是 注释 , Weka 也 将 忽略 这 些 行 。 如 果 看 到 
的 ARFF 文件 多 了 或 少 了 一 些 以 “% ”开始 的 行 ,这 些 对 文件 是 没有 影响 的 。 

除 注释 之 外 ,整个 ARFF 文件 可 以 分 为 两 个 部 分 。 第 一 部 分 给 出 了 头 信息 (Head 
Information) 包 括 了 对 关系 的 声明 和 对 属性 的 声明 。 第 二 部 分 给 出 了 数据 信息 (Data 
Information) , 即 数 据 集 中 给 出 的 数据 。 从 @data 标记 开始 ,后 面 的 就 是 数据 信息 了 。 

关系 声明 : 关系 名 称 在 ARFF 文件 的 第 一 个 有 效 行 来 定义 ,格式 为 @relation 二 relation- 
name> , — relation-name ^ Je — ^£ f E. 

属性 声明 : 属性 声明 用 一 列 以 @attribute 开头 的 语句 表示 。 数 据 集中 的 每 一 个 属性 都 
有 它 对 应 的 @attribute 语句 ,来 定义 它 的 属性 名 称 和 数据 类 型 。 这 些 声明 语句 的 顺序 很 重 
要 。 首 先 它 表明 了 该 项 属性 在 数据 部 分 的 位 置 。 例 如 ,humidity 是 第 三 个 被 声明 的 属性 ， 
这 说 明 数 据 部 分 那些 被 逗号 分 开 的 列 中 ,第 三 列 数据 85 90 86 96… 是 相应 的 humidity 值 。 
其 次 ,最 后 一 个 声明 的 属性 被 称 作 class 属性 ,在 分 类 或 回归 任务 中 , 它 是 默认 的 目标 变量 。 
属性 声明 的 格式 为 @attribute <datatype> JP attribute 是 必须 以 字母 开头 的 字符 串 。 
Weka 3C fW — datatypef 4 种 ,分 别 是 数值 型 numeric, 分 类 型 二 nominal-specification 二 , 字 
JFE string, 日 期 和 时 间 date | — date-format ]. 
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3. 如 何 将 数据 集 处 理 成 ARFF 格式 

使 用 Weka 进行 数据 挖掘 ,首先 需要 将 关系 数据 库 中 的 数据 .电子 表格 中 的 数据 等 处 理 成 
为 ARFF 格式 。Weka 也 提供 了 对 CSV 文件 的 支持 ,而 这 种 格式 是 被 很 多 其 他 软件 所 支持 的 。 

很 多 应 用 的 数据 是 存放 在 数据 库 中 的 ,如 SQL Server, 从 数据 库 中 的 数据 获得 ARFF 
文件 格式 需要 经 过 两 个 步骤 : 第 一 步 ,将 数据 从 数据 库 中 导出 成 CSV 文件 ;第 二 步 ,将 CSV 
文件 转换 成 ARFF 文件 。 下 面 以 一 个 简单 的 例子 演示 这 个 转换 过 程 。 

图 B-14 所 示 是 SQL Server 2005 学 生 数 据 库 student 中 的 一 张 学 生成 绩 表 stud_score。 
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B-14 学 生成 绩 表 


使 用 SQL Server 提供 的 数据 导出 功能 ,将 该 表 导 出 成 CSV. 文件 ,操作 步骤 如 下 : 
(1) 点 击 表 所 属 的 数据 库 , 使 用 右键 菜单 的 “任务 ”>“ 导 出 数据 ”命令 ,如 图 B-15 所 示 。 
启动 数据 库 导入 导出 向 导 , 直 接 单 击 “ 下 一 步 " 按 钮 。 


S [fj TY (SQL Server 9.0.2047 - TVA 


日 a 数据 库 
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m (J bookshopl Js 
ar] :- E 
sms 。 新 建 数据 库 如 
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国 E RESREFNEHO) ， 
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a eet SAREQ 
È O RSENS SESEO 


a 复制 数据 库 O. 
m5: 14 b bbb o | 单元 格 是 只 读 的 。 


图 B-15 选择 导出 数据 命令 
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(2) 在 图 B-16 所 示 的 “选择 数据 源 ” 页 面 中 ,选择 要 导出 的 数据 库 。 从 该 对 话 框 的 “ 数 
据 库 ?下拉 列表 中 选择 要 导出 的 表 所 在 的 数据 库 。 因 为 ,在 步骤 (1) 中 已 经 选择 了 数据 库 , 所 
以 该 对 话 框 中 默认 的 数据 库 显示 为 student。 可 以 直接 单 击 “下 一 步 ? 按 钮 。 


B SQL Server 导入 和 导出 向 导 


择 数据 源 
EREN PERREN. 


数据 源 ()， [B sa mtive Client 


服务 器 名 称 (S) imr 
身份 验证 
(* 使 用 Windows 身份 验证 W 
C 使 用 SQL Server 身份 验证 (9) 
RIP OD 
SEW 


mm 


HEED 


a] zs >] 取消 
图 B-16 选择 数据 源 


(3) 从 “选择 目标 ”页 面 中 “目标 ”下 拉 列 表 选 择 导出 文件 的 目标 格式 ,为 了 将 数据 导出 
成 CSV 格式 ,选择 “平面 文件 目标 ”, 并 单 击 “ 下 一 步 ” 按 钮 ,如 图 B-17 所 示 。 
E SoL Server 导入 和 导出 向 导 EE 
择 目 标 
指定 要 将 数据 复制 到 向 处。 


BERW: Bj SQL Native Client ks 


Bj Microsoft OLE DB Provider for Internet Publishing ^ 
服务 器 名 称 (5) Qoeal| 贸 中 erosoft OLE DB Provider for OLAP Services 8.0 
一 身份 验证 [Bj Microsoft OLE DB Provider for Oracle 
G 使 用 Windows 身份 验证 侧目 Microsoft OLE DB Provider for SQL Server 
B sar Native Client 
E SQLXNLDLEDB 
Bj SQLXMLOLEDE. 4.0 


C 使 用 SQL Server 身份 驻 计 
RIP) 
XS) 


数据 库 (7) 


图 B-17 设置 选择 目标 类 型 


(4) 单 击 "浏览 ?按钮 ,选择 磁盘 上 一 个 已 经 存在 CSV 文件 ,如 图 B-18, Æ B-19 所 示 。 
如 果 还 没有 创建 用 来 保存 导出 数据 的 CSV 文件 , 则 需要 首先 创建 。 或 在 单 击 “浏览 ?按钮 打 
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开 选 择 文件 对 话 框 后 ,在 该 对 话 框 中 立即 创建 一 个 CSV 文件 。 


B SoL server 导入 和 导出 向 导 


选择 目标 
指定 要 将 数据 复制 到 何 处 。 


Biz: a 平 面 文件 目标 - 
ERHEBEN HE. 
文件 名 (DD 


区 域 设置 (LD) 
TB (C) ose — (ANSI/OEM - 简体 中 文 GEK) 


RW RR z 
文本 限定 符 (9) 


T^ 5 — EU GTP Sors UO 


Dos DEMENS 
帮助 W 《上 一 步 B) T—5 00 TRD »»| | 取消 


图 B-18 浏览 目标 页 面 


sm. [D) 我 的 文档 了 | + age 


OFetion 

(LOMy. eBooks 

OSAL Server Management Studio 
BTencent Files 

DVisu Studio 2005 


文件 名 四: stud score. csv 


LHRH D: — [csv 文件 f. esv) z] 


图 B-19 选择 目标 文件 


(5) 单 击 “ 打 开 ” 按 钮 , 回 到 导出 向 导 , 看 到 如 图 B-20 所 示 的 信息 。 由 于 在 转换 为 
ARFF 文件 时 ,Weka 必须 从 CSV 文件 的 第 一 行 读 取 属 性 名 ,否则 就 会 把 第 一 行 的 各 属性 
值 读 成 变量 名 ,所 以 需要 选中 “在 第 一 个 数据 行 中 显示 列 名 称 ” 复 选 框 , 保 持 对 话 框 中 其 他 选 
项 为 默认 状态 , 单 击 “ 下 一 步 ”按钮 。 

(6) 在 弹出 的 “指定 表 复 制 或 者 查询 "页面 中 ,选择 “复制 一 个 或 多 个 表 或 视图 的 数据 ” 单 
选 按钮 ,并 单 击 “ 下 一 步 ” 按 钮 ,如 图 B-21 所 示 。 如 果 要 导出 的 数据 不 是 来 自 于 一 个 表 , 而 是 从 
一 个 或 多 个 表 中 选择 符合 某 些 条 件 的 数据 , 则 选择 “编写 查询 以 指定 要 传输 的 数据 ” 单 选 按钮 。 
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B SoL Server 导入 和 导出 向 导 


选择 目标 
指定 要 将 数据 复制 到 何 处 。 


BRW: 3 平面 文件 目标 
选择 一 个 文件 并 指定 文件 尾 性 和 文件 格式 。 


XO [C:\Documents and SettingslzxyWMly DocunentsVstud score. csv WEW... 
E BERE CD: 中 文 中 华人 民 共和 国 ) 可 Unicode QD 
RETO [sse — Gus/oEM - 简体 中 文 GBK) zi 


RW: 带 分 隔 符 - 
文本 限定 符 (9) Ku» 


M RET DEGSIPPSNOROUSNC UO! 


图 B-20 进行 格式 设置 


E SQL Server 导入 和 导出 向 导 


指定 表 复 制 或 查询 
指定 是 从 数据 源 复制 一 个 或 多 个 表 和 视图 ， 还 是 从 数据 源 复制 查询 结果 。 


此 选项 用 于 复制 源 数据 库 中 现 有 表 或 视图 的 全 部 数据 。 


C 编写 查询 以 指定 要 传 给 的 数据 [WwW] 
此 选项 用 于 编写 SQL 查询 ,以便 对 复制 操作 的 源 数 据 进 行 操纵 或 限制 。 


case [75995] = 


图 B-21 指定 表 复 制 或 查询 


C7) 在 弹出 的 “配置 平面 文件 目标 ”页 面 中 , 单 击 “ 预 览 ” 按 钮 ,查看 选 定 的 数据 表 以 及 表 
中 的 数据 ,用 以 确认 选择 是 否 正确 ,如 图 B-22 所 示 。 

(8) 在 弹出 的 “配置 平面 文件 目标 ”页 面 中 , 单 击 “ 编 辑 转换 ”按钮 ,指定 导出 到 目标 文件 
时 的 操作 ,并 单 击 “ 确 定 ” 按 钮 ,如 图 B-23 所 示 。 此 选项 组 有 3 个 选项 :“ 创 建 目标 文件 ”、 
“删除 目标 文件 中 的 行 " 和 “向 目标 文件 中 追加 行 " 单 选 按 钮 。 如 果 之 前 导出 的 目标 文件 在 磁 
盘 上 不 存在 , 则 此 处 默认 选择 “创建 目标 文件 ?选项 ,并 且 屏 项 另外 两 个 选项 。 如 果 已 经 有 该 
目标 文件 ,这 可 以 选择 “删除 目标 文件 中 的 行 " 单 选 按钮 ,用 本 次 导出 的 数据 覆盖 原 有 的 数 
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E SQL Server 导入 和 导出 向 导 
配置 平面 文件 目标 


源 表 或 源 视图 (3) - [student]. [dbo]. [st 


指定 在 目标 文件 中 用 作 分 隔 符 的 字符: 
SIR D [ice te] 


HIRE O fes ii 


Bao... 


CE-5Q 完成 四 >I 取消 


ESI SITE — UT 


图 B-22 配置 平面 文件 目标 


据 , 或 者 指定 “向 目标 文件 中 追加 行 ”, 将 本 次 导出 的 数据 添加 到 目标 文件 已 有 数据 的 末尾 。 


[student], [dbo]. [stud score] 


C:\Documents and Settings VzxyMMy Documents stud score. csv 
C üt OD 
C 删除 目标 文件 中 的 行 Q0 


c 向 目标 文件 中 追加 行 (了 ) 
BA QD: 


Scoreid four-byte sig 
Stud no string [DT STR] 
Math four-byte sig 
Chinese four-byte sig 
Computer four-byte sig 


total_score four-byte sig. 


图 B-23 设置 列 映射 


(9) 选中 “立即 执行 " 复 选 框 ,并 单 击 “ 完 成 ”按钮 ,执行 导出 ,如 图 B-24 所 示 。 

(10) 导出 成 功 显示 如 图 B-25 所 示 的 对 话 框 ,至 此 ,完成 了 将 SQL Server 2005 数据 库 
文件 导出 成 为 CSV 文件 的 过 程 。 

(11) 用 记事 本 打开 CSV 文件 查看 文件 内 容 , 如 图 B-26 所 示 。 

(12) 运行 Weka 的 主 程序 ,如 图 B-27 Bros. 

(13) 单 击 进 入 Simple CLI 模块 ,Simple CLI 模块 是 Weka 提供 的 命令 行 功能 界面 ,如 
图 B-28 所 示 。 
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B SoL Server 导入 和 导出 向 导 


保存 并 执行 包 
指 东 是 否 保存 sss B. 


jv BERTAT DI 
p f ssi SG 


deas co) 
(ERIRI P SESHDUS SS E fs 


SB) 
3B BECA ED (0 


sop | C5 sete »l 取消 


图 B-24 执行 转换 


E SoL Server 导入 和 导出 向 导 


Q x» 


详细 信息 W: 


正在 初始 化 数据 流 任 务 
正在 初始 化 连接 
正在 设置 SQL 命令 
正在 设置 源 连 接 
正在 设置 目标 连接 
正在 验证 
(Ee 
i 执行 之 前 
正在 执行 
i) 正在 复制 到 | C: Documents and Settings\zxy\ly Do 
i) 执行 之 后 


图 B-25 执行 成 功 界面 
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P stud score.csv — 记事 本 
Xf) REO 格式 @) SEV #HW 


Scoreid, Stud no, Math, Chinese, Computer, total score 
1, 0691B001, 85, 90, 92, 267 


2, 0691B002, 80, 69, 73, 222 
8, 0691B006, 65, 66, 60, 191 
4, 0691B023, 45, 58, 62, 165 


图 B-26 查看 文件 内 容 


Weka GUI Chooser 
Program Visualization Tools Help 


Applications 


WEKA [ me 


The University 


» of Waikato Re 


Taikato Environment for Knowledge Analysis KnowledgeFlow 
Version 3.6.4 


(e) 1999 - 2010 by NONE 
The University of Waikato Simple CLI 
Hamilton, Wew Zealand 


SimpleCLI 


Welcome to the WEKA SinmpleCLI 


Enter commands in the textfield at the bottom of 
the window. Use the up and down arrows to move 
through previous commands. 

Command completion for classnames and files is 
initiated with «Tab». In order to distinguish 
between files and classnames, file names must 

be either absolute or start with '.V' or '«/' 

(the latter is a shortcut for the home directory). 
«Alt-BackSpace» is used for deleting the text 

in the commandline in chunks. 


> help 


Command must be one of: 
java «classname» «args» [ > file] 
break 
kill 
cls 
history 
exit 
help «command» 


java weka.core.converters.CSVLoader c:/stud score.csv > c:/stud score.arff| 


B-28 Simple CLI 界面 


(14) 在 新 窗口 的 最 下 方 有 一 行 输入 框 , 在 这 里 可 以 输入 命令 。 在 此 命令 输入 框 中 输入 
命令 java weka. core. converters. CSV Loader filename. csv > filename. arff 即 可 完成 转换 。 
其 中 java weka. core. converters. CSVLoader 是 Weka 的 一 个 命令 ,用 来 进行 文件 格式 的 转 
换 filename. csv 是 待 转 换 的 CSV 文件 ,filename. arff 是 转换 之 后 的 ARFF 文件 。 对 于 上 
面 得 到 的 CSV 文件 ,假设 放 在 了 C 盘 根 目录 下 ,需要 输入 的 命令 是 java weka. core. 
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converters, CSVLoader c: /stud score. csv >c: / stud score. arff ,转换 之 后 的 文件 名 为 
stud score. arff。 可 以 从 Simple CLI 窗口 中 看 到 转换 的 执行 情况 ,如 图 B-29 所 示 。 


SimpleCLI 
Enter commands in the textfield at the bottom of 
the window. Use the up and down arrows to move 
through previous commands. 
Command completion for classnames and files is 
initiated with «Tab». In order to distinguish 
between files and classnames, file names must 
be either absolute or start with '.V' or ‘~/' 
[the latter is a shortcut for the home directory). 
«Alt-BackSpace» is used for deleting the text 
in the commandline in chunks. 


> help 


Command must be one of: 
java «classname» «args» [ > file] 
break 
kill 
cls 
history 
exit 
help «command» 


> java weka.core.converters.CSVLoader c:/stud score.csv > c:/stud score.arff 


Finished redirecting output to 'c:/stud score.arff'. 


B-29 进行 文件 转换 


(15) 在 Weka 中 还 提供 了 ArffViewer 模块 ,可 以 用 它 打开 一 个 CSV 文件 进行 浏览 , 然 
后 另存 为 ARFF 文件 。 从 图 B-27 的 主 界面 进入 Explorer 模块 , 单 击 上 方 的 Open files f£ 
钮 中 打开 CSV 文件 ,如 图 B-30 所 示 。 然 后 点 击 右 上 方 的 Save 按钮 ,将 CSV 文件 另存 为 
ARFF 文件 亦 可 。 


Feka Explorer 


Preprocess | Classify | Cluster | Associate| Select attributes | Visualize 


Open VRL.. ][ Open n5. | [Generate. 


Apply 
Current relation Selected attribute 


Relation: score Name: Scoreid Type: Numeric 
Instances: 4 Attributes: 6 Missing: 0 (0%) Distinct: 4 Unique: 4 (100%) 


Attributes | Statistic Value 
Minim n 
Maximm |a 
Mean |2.5 
StDev [1.291 


[Computer 
total_score 


[chinese | Class: total score Om) Visualize N1 


4 


Status 
OK 


图 B-30 浏览 CSV 文件 并 保存 ARFF 文件 
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